• Aucun résultat trouvé

Chapitre 2 La compréhension de l’oral en anglais L2

2.1. Le rôle des phonèmes

2.1.3. Conséquences pour la reconnaissance lexicale

2.1.3.3. Tentatives d'explication

Comment expliquer cette corrélation faible ou absente entre discrimination phonémique et compréhension de l'oral? Deux pistes d'explication peuvent être trouvées dans la littérature, qui sont intéressantes à la fois pour le développement d'un test de sensibilité phonémique, et pour la prise en compte d'autres facteurs. D'une part, le phonème n'est peut-être pas l'unité de base la plus pertinente en perception de la parole, et c'est peut-être notre système d'écriture alphabétique qui nous influence à tort en nous poussant à privilégier l'unité phonémique aux dépens d’autres unités possibles (Wauquier-Gravelines, 1999). D'autre part, comme nous l'avons vu dans la partie présentant les modèles actuels en compréhension de l'oral, le cerveau fait feu de tout bois pour traiter le signal entrant, et les processus descendants peuvent en partie compenser un éventuel déficit d’activation aux niveaux inférieurs de traitement, en particulier pour les apprenants L2. Nous analyserons ces deux hypothèses tour à tour.

2.1.3.3.1. mise en cause du statut du phonème

Dès le début des analyses spectrales dans les années 1950, le statut du phonème s'est posé (Hawkins, 2004). Malgré de nombreuses recherches, il n'a jamais été possible de trouver un invariant qui caractérise toutes les réalisations d'un même phonème (quels que soient sa position dans un mot, le contexte droit et gauche, la vitesse d'élocution, le sexe du locuteur,

etc..). En effet, l'information « phonémique » n'est pas présente uniquement dans un segment, mais au contraire est distribuée sur les segments adjacents, au point qu'une distinction en finale peut avoir une conséquence dès le début du mot. Coleman (2003) rappelle par exemple qu'une distinction de voisement en finale (lent vs. lend) peut s'entendre dès le /l/ initial qui est légèrement plus long et sombre (vélarisé) pour lend que pour lent.

Certains chercheurs ont donc émis l'idée qu'une unité plus grande, la syllabe en l'occurrence, serait plus adéquate. Dès 1952, Cooper et collaborateurs déclaraient que « the perception of

these stimuli, and also, perhaps, of their spoken counterparts, requires the consonant-vowel combination as a minimal acoustic unit » (F. S. Cooper et al., 1952, cité par Hawkins 2004, p.

12). Greenberg (1999), qui étudie un corpus de productions spontanées, plaide lui aussi pour la syllabe : d'une part les mots (anglais) sont pour la plupart monosyllabiques à l'oral (80% des instances dans son corpus), et d'autre part, il y a moins de variation au niveau de la syllabe, ou plus précisément, la variation peut être systématisée au niveau de la syllabe. L'attaque est en effet en général préservée (dans près de 85% des cas, et même 90% en cas d'attaque complexe avec plusieurs consonnes), tandis que la voyelle noyau est souvent modifiée par rapport à la forme de citation (35% des cas), et que le coda est souvent non réalisé (28% du temps). Greenberg souligne que la préservation de l’attaque est probablement due à son importance en perception, en particulier pour la segmentation. De plus, l'accent opère au niveau de la syllabe. Harley (2007) rappelle par ailleurs que la syllabe est une unité plus accessible à la conscience que les phonèmes. C’est le cas chez les enfants avant l’apprentissage de la lecture (Bosse & Zagar, 2016, p. 573, appellent la syllabe « l’élément sublexical le plus facilement accessible aux enfants non lecteurs »), mais aussi chez les adultes n’ayant pas appris à lire avec un système alphabétique (comme C. Read et al., 1986, l’ont montré avec des adultes lecteurs de chinois mandarin). Avant ou sans l’apprentissage d’une langue alphabétique, le cerveau humain a beaucoup de mal à décomposer le langage en éléments infra-syllabiques.

D'un autre côté, le phonème est peut-être au contraire une unité trop grande pour la perception de la parole. Nous avons vu en effet que les locuteurs utilisent des informations allophoniques pour traiter le signal sonore. Les études décrites dans le premier chapitre montrent que les locuteurs natifs savent prendre en compte ces informations, qui leur permettent de segmenter le signal même quand ils ne connaissent pas certains mots. D’autres études montrent que les apprenants L2 sont également capables de repérer les indices infra-phonémiques. Altenberg

(2005), Ito et Strange (2009) et Shoemaker (2014) arrivent à des résultats convergents avec des apprenants d’anglais L2 de langue maternelle respectivement espagnole, japonaise et française. A chaque fois, les sujets réussissent assez bien à segmenter les expressions où la frontière lexicale est marquée par un coup de glotte (devant une voyelle), et arrivent à distinguer a nice man (sans coup de glotte) de an ice man (avec un coup de glotte devant la voyelle de ice). Ils ont plus de mal à utiliser l’information apportée par l’aspiration mais ont tout de même des résultats meilleurs que le hasard pour distinguer keeps ticking (avec un [tʰ] aspiré en début de mot devant une voyelle) de keep sticking (sans aspiration après un /s/). Cependant, les stimuli utilisés dans ces études sont assez artificiels car ils ont été enregistrés dans un contexte peu naturel (Say ____ again) et bien articulés pour les besoins des expériences (en particulier, prononcés un peu plus lentement que la vitesse habituelle : Altenberg, 2005, p. 336), et il n’est pas sûr que les participants auraient eu d’aussi bons résultats avec des stimuli authentiques. Fox Tree et Meijer (2000) montrent par exemple que des stimuli produits par des locuteurs non entraînés donnent des résultats très différents de ceux enregistrés par des locuteurs professionnels (dans leur cas, pour l’interprétation d’informations prosodiques).

Ces expériences démontrent tout de même que les allophones et, plus généralement, les variations infra-phonémiques ne sont pas simplement des variantes en contexte que le locuteur utilise pour se simplifier la vie en production et qu’il faut « re-normaliser », c'est-à-dire traduire en phonèmes, afin d’arriver à la forme « pure » (de citation). Ces variantes sont certes utilisées par le locuteur pour plus de facilité, parce qu’il est impossible d’articuler les sons indépendamment les uns des autres. En effet, les articulateurs se préparent naturellement à prononcer un nouveau son avant que le précédent soit terminé (coarticulation qui conduit à une assimilation régressive, c’est-à-dire une influence du son suivant sur le son précédent), et ces mêmes articulateurs restent encore un peu dans la position du son précédent après le début du suivant (coarticulation qui conduit à une assimilation progressive, c’est-à-dire une influence du son précédent sur le son suivant). Mais ces variantes aident également l’auditeur, de L2 comme de L1, qui lui aussi se « prépare » à entendre le son suivant dès le son précédent, et qui est surpris si ce n’est pas ce qu’il attend (Dahan & Magnuson, 2006). Cela lui permet aussi de « récupérer » une information qui a pu lui échapper et qui reste disponible sur le segment suivant, rendant ainsi plus robuste la perception de la parole. Loin d’être assimilable à un alourdissement de la tâche de l’auditeur qui devrait se débarrasser des variations allophoniques avant d’avoir accès à une représentation phonémique et au sens, ces

indices infra-phonémiques sont au contraire exploités par l’auditeur pour traiter plus efficacement le signal. Dans cette optique, il n’est donc pas forcément gênant que les apprenants L2 n’aient pas (encore) fait le travail d’abstraction nécessaire à l’analyse des mots en phonèmes (et donc en assimilant toutes les variantes allophoniques à un même phonème), puisque l’utilisation des informations infra-phonémiques peut au contraire les aider (mais rien ne dit non plus qu’ils soient capables d’utiliser efficacement ces informations pour anticiper les sons qui vont suivre).

En conclusion, on peut citer Sara Hawkins selon laquelle « it is useful to regard phonemes as

primarily units of maximal phonological contrast for identification of lexical items in citation form, rather than as an obligatory first stage in understanding connected speech » (Hawkins,

2004, p. 12). Certains chercheurs comme Goldinger et Azuma (2003) vont plus loin et nient toute « réalité » au phonème comme unité a priori de la perception de l'oral. Pour eux, c'est le contexte, et la tâche qu'on demande aux locuteurs d’effectuer qui rend telle ou telle unité plus ou moins saillante. Goldinger (1998) propose d’ailleurs une théorie exemplariste où les mots sont reconnus sans passer par une étape de reconnaissance d’unités phonologiques intermédiaires, mais simplement par similarité avec des exemplaires de mots stockés en mémoire (chaque exemplaire lexical étant mémorisé avec sa voix et son contexte). Nous reparlerons plus en détail de la théorie des exemplaires dans la troisième partie de ce travail.

2.1.3.3.2. compensation par processus descendants

Nous avons examiné une première explication possible au rôle apparemment peu important de la compétence de discrimination phonémique dans la compréhension de l’oral. Une autre raison réside probablement dans l’utilisation de stratégies compensatoires, et en particulier dans l’exploitation des connaissances lexicales.

Field (2004) a par exemple montré que les auditeurs L2 peuvent passer outre les informations phonémiques quand leurs connaissances lexicales les poussent dans une autre direction : en cas d’informations contradictoires, certains d’entre eux font plus confiance à leurs connaissances lexicales qu’à leur traitement du signal acoustique. Il a fait entendre à 48 lycéens/étudiants internationaux faisant un stage d’anglais dans une école de langue en Angleterre, de niveau élémentaire ou intermédiaire, une liste de phrases se terminant par un mot rare, qu’ils ne connaissaient probablement pas, mais assez proche dans sa prononciation d’un mot beaucoup plus courant. Les phrases étaient construites de telle façon que le contexte

soit favorable au mot rare et non à son voisin plus courant (They’re lazy in that office; they

like to shirk. [not WORK]), et les apprenants devaient noter sur une feuille le mot entendu en

fin de phrase. Bien qu’un certain nombre d’entre eux se soient clairement basés sur le signal pour proposer une réponse (juste ou parfois fausse, en proposant un non-mot), ou n’aient pas répondu, un tiers de réponses étaient des substitutions de mots plus courants, y compris, dans la moitié des cas, d’une catégorie syntaxique ne convenant pas dans le contexte. Il semble donc que ces apprenants (de niveau assez faible) ne se fient pas à l’information phonémique, mais qu’ils ont au contraire une stratégie lexicale, qui a pu être encouragée par la tâche qui leur demandait de noter un seul mot. On peut aussi remarquer que, s’il s’agit d’une stratégie descendante (le niveau lexical prime sur l’information acoustique), la stratégie reste de niveau assez peu élevé, puisqu’il n’y a pas de prise en compte du contexte sémantique et syntaxique. Une deuxième expérience visait à étudier l’interaction entre une éventuelle stratégie contextuelle et les indices acoustiques, en faisant écouter aux mêmes apprenants des phrases dont le dernier mot, courant et contraint par le contexte, était remplacé par un autre, aussi fréquent mais moins contraint par le contexte, tout en restant plausible (I couldn’t listen to the

radio because of the boys. [NOISE] ou The people at the party were Germans, Italians, Spanish and some friends [FRENCH]). Les substitutions dans ce cas sont moins nombreuses

que dans l’expérience décrite précédemment, mais ont lieu dans 7 des 20 phrases, avec des pourcentages variant de 15 à 60% de substitutions pour ces 7 items. Il n’est donc pas rare que les informations contextuelles priment sur celles qui viennent du signal.

D’autres études avaient déjà montré que les connaissances antérieures pouvaient pallier les manques linguistiques. Long (1990) a fait écouter à 188 étudiants américains inscrits en troisième trimestre d’espagnol (niveau intermédiaire) deux textes pour lesquels ils avaient des connaissances préalables soit sommaires (la ruée vers l’or en Californie au 19ème siècle), soit étoffées (groupe de rock U2). Les résultats au premier test étaient corrélés à leur note d’espagnol du trimestre précédent, ce qui n’était pas le cas pour le deuxième. Donna Long en conclut que les connaissances préalables dans le deuxième cas peuvent permettre de suppléer aux connaissances linguistiques défaillantes, alors que pour le premier texte, les étudiants étaient obligés de se reposer presque uniquement sur leurs connaissances linguistiques, d’où la corrélation avec leur note de langue.

Enfin, l’étude à grande échelle de Tsui et Fullilove (1998) a aussi montré que l’utilisation de schémas déduits du contexte au début de l’écoute (ou même avant, en utilisant la question et

les réponses possibles lisibles avant le début de l’écoute d’un test de compréhension sous format QCM) aide les apprenants L2 (dans ce cas des lycéens de Hong Kong apprenant l’anglais) à condition que ce schéma soit utilisable jusqu’à la fin du texte. Les questions à schéma cohérent entre le début et la fin du texte sont en effet mieux réussies que celles à schéma discordant, en particulier pour les candidats plus faibles. Cela montre que l’utilisation des informations contextuelles, et donc la compensation par processus descendant, facilite la compréhension.

2.1.4. Conclusion

Nous avons vu que l’utilisation de connaissances lexicales, ou plus généralement du contexte, pouvait primer sur les informations tirées du traitement du signal acoustique, et pouvait ainsi compenser les insuffisances du traitement phonémique pour les L2. On peut d’ailleurs rappeler ici que même chez les natifs, la discrimination phonémique hors contexte ne se fait pas sans problèmes, comme en témoignent les matrices de confusion dont les premières ont été calculées par George Miller et Patricia Nicely (1955) pour les consonnes (les fricatives sont par exemple moins bien reconnues que les autres consonnes, en particulier /θ/ et /ð/ qui sont souvent prises pour /s/ et /z/) ou Peterson et Barney (1952) pour les voyelles (une des voyelles posant le plus de problèmes est /ɛ/, souvent confondue avec /ɪ/ ou /æ/).

A la lumière de ce qui précède, on ne s’attend pas à ce que la discrimination phonémique joue un rôle crucial dans la compréhension de l’oral en L2. Nous avons en effet vu plusieurs fois que le problème éventuel ne semblait pas tant se situer au niveau de la perception elle-même, même si les effets de l’aimant perceptuel sont indéniables, qu’au niveau lexical. Les apprenants L2 peuvent apprendre à entendre la différence entre certains phonèmes de la L2, mais cela n’est pas forcément suffisant pour qu’ils utilisent ensuite ces informations lors de la reconnaissance lexicale, pour écarter les mots qui ne correspondent pas au schéma qu’ils entendent. Ce phénomène peut être relié au modèle Chunk-and-Pass que nous avons décrit dans le premier chapitre. Lorsque des unités d’un niveau inférieur (ici celui des unités phonologiques) sont regroupées (chunked) pour former une unité de niveau supérieur (le mot, au niveau lexical), une partie de l’information est perdue. C’est ce que ses concepteurs appellent le lossy chunking, ou « regroupement avec perte de détails » (Christiansen & Chater, 2016, p. 8). On peut imaginer que, pour les apprenants L2, les différences acoustiques qu’ils sont capables de percevoir n’ont pas encore atteint le statut de phonème de la langue étudiée

et ne remontent pas au niveau lexical. Le /h/ qu’ils sont capables d’entendre, par exemple, ne remonte pas dans leur représentation du mot happy, et son absence ne sera pas remarquée. Nous allons tout de même essayer dans nos expérimentations d’isoler l’importance de la discrimination phonémique pour nos étudiants en construisant un test où les phonèmes sont traités au niveau de la syllabe, vu son statut privilégié dans le traitement du signal acoustique, suivi d’une partie où ils seront utilisés dans des mots, pour essayer d’isoler les effets éventuels du biais lexical. Nous tirerons parti des études résumées plus haut sur la difficulté de perception de certains phonèmes par les francophones pour construire des items qui soient discriminants (ni trop faciles, ni trop difficiles) pour notre public. La construction de ces tests sera décrite dans la deuxième partie de cette thèse.