Des modèles d’acquisition phonétique et phonologique

4 Théorie de l'imitation vocale

4.6 Des modèles d’acquisition phonétique et phonologique

Il existe plusieurs théories de l’acquisition de la matière phonique dans la littérature. Quatre modèles, quelque peu différents dans leur approche mais complémentaires, voire interconnectés méritent amplement d’être mentionnés. Les modèles que nous présentons111

sont pour nous d’une importance capitale, car ils expliquent les mécanismes sous-jacents de l’apprentissage phonético- phonologique en L2. Ils constituent les seules théories de prononciation existantes (à notre connaissance) qui se focalisent explicitement sur l'acquisition du langage L2 et permettraient de prédire l’apprentissage de la prononciation. Même si la prononciation (production) est l’aspect central, la perception tient évidemment une place primordiale et comme nous l’avons évoqué, la perception auditive est une condition nécessaire pour une imitation vocale réussie. Aussi, plusieurs notions et termes abordés supra viennent faciliter leur compréhension et l’on pourra aisément entrevoir la passerelle qui relie ces modèles et l’imitation vocale. Nous commençons par le premier modèle qui est l’Acoustic Image Imprinting (AII).

4.6.1 Acoustic Image Imprinting

Le modèle de l’Acoustic Image Imprinting (AII), initié par Neufeld (1977), comprend deux hypothèses majeures. La première considère que malgré la variabilité interindividuelle dans l’apprentissage d’une langue, les adultes sont capables d’atteindre une prononciation proche des natifs, et que ce potentiel d’acquisition concerne toutes les L2. En revanche, l’auteur s’interroge sur la manière de mettre en œuvre des méthodes permettant d’atteindre cet objectif : « the problem

was how to access this potential and how to sufficiently motivate our students to exploit it » (Neufeld,

1977, p. 47). Nous pouvons tout de suite comprendre que ce modèle discrédite l’hypothèse selon laquelle il existerait une période critique pour l’apprentissage d’une L2, c’est-à-dire que les enfants seraient plus aptes à mieux apprendre une langue que les adultes. La deuxième hypothèse part de l’idée que chaque son est représenté par une image abstraite :

We assume that, to produce native-like sounds in a language, we must have internalized an auditory representation (the phonetic image) for the sound patterns of that language; acoustic image is gradually strengthened over time and through exposure. In addition to this

122

input, image sphere appears to exist in a parallel image which represents the phonetic shapes of the individual's output (Neufeld, 1977, p. 57).

Toujours selon l’auteur, lorsqu’un apprenant prononce un son d’une L2, très souvent il déforme cette « image » associée au modèle acoustique du son natif. En vue de corriger cette représentation erronée, les apprenants devraient être encouragés à écouter d’abord l’input, plutôt qu'à produire des sons L2, afin qu'une image acoustique correcte puisse être générée, comme Neufeld le précise : « […] our students be thoroughly introduced or sensitized to the sound patterns of the target language

before112

attempting to produce them » (p. 47). Il continue en suggérant que : « By delaying oral

production, we hope to minimize contamination of the “acoustic image imprint” » (ibid.). La notion du temps de latence entre l’exposition à de l’input et la phase de production orale est cruciale dans ce postulat de Neufeld. Il fait une analogie avec la façon dont les bébés et les jeunes enfants acquièrent, par imitation, les formes linguistiques : « unlike the baby, who has heard his language

long before attempting to imitate it […] this undesirable interference could be minimized if the child were to refrain from speaking until he had had sufficient time to imprint the new sound patterns » (p.

57). En effet, bon nombre de chercheurs en acquisition de L2 s’accordent sur cette phase d’assimilation de l’input avant toute production langagière. En revanche, cet aspect n’est pas appliqué dans la salle de classe, où l’apprenant est « forcé » à produire dans l’immédiat c’est-à-dire même en tout début d’apprentissage. Autrement, le modèle préconise également que les apprenants évitent les modèles non natifs, car ceux qui sont potentiellement capables d'atteindre une prononciation de type natif (et ils ne sont pas tous considérés comme capables) ne peuvent réussir que dans de bonnes conditions d'apprentissage. Toutefois, le modèle a été beaucoup critiqué parce que difficile à tester et aussi en raison du nombre limité d’études. Aussi, bien que le modèle de Neufeld n'ait pas pour but d'expliquer les détails de l'apprentissage sonore, l'hypothèse selon laquelle tous les sons peuvent être appris à un degré semblable à celui de la langue maternelle présente un intérêt considérable, à condition que la possibilité de générer une représentation acoustique non déformée soit fournie. L'affirmation selon laquelle cette réussite n'est pas possible pour certains apprenants (Neufeld, 1977, p. 46) est également importante. Cela montre que chaque apprenant est différent et évolue dans un système dynamique et complexe, où il n’y a pas que des progrès mais aussi de la stagnation, de la fossilisation, de l’attrition, etc. Cette

123

différence entre apprenants est aussi présentée dans ce modèle comme inhérente uniquement en termes de limitations psychosociologiques et non à des limites naturelles ou linguistiques. Néanmoins, le fait que ce modèle propose éviter les sons non-natifs est critiquable, car cela revient à privilégier une prononciation standard d’une langue. Cette conception de l’apprentissage la prononciation mise en avant par le modèle de l’Acoustic Image Imprinting (AII) est largement démodée, comme nous l’avons vu avec la notion de World Englishes (cf. section 2.3) Outre ce fait, les hypothèses de l’AII nous semblent pertinentes et ont tout leur intérêt dans le domaine de l’enseignement/apprentissage des langues. La section suivante est consacrée au second modèle que nous souhaitions présenter ici, le Speech Learning Model (SLM).

4.6.2 Speech Learning Model

Le Speech Learning Model (SLM), comme son nom l’indique, est un modèle bien connu d'apprentissage de la parole, développé par James Emil Flege (1992). Il repose sur la différence des systèmes phonétiques entre la L1 et la L2 en vue de prédire l’apprentissage de la prononciation en L2. Son objectif premier est de prendre en compte les changements tout au long de la vie dans l'apprentissage de la production et de la perception de segments phonétiques. Le SLM a également proposé une série d’hypothèses générales fondées sur des données probantes et solides, collectées sur une période de 30 ans. Tout d’abord, l’auteur pose que les bilingues ne peuvent pas séparer complètement leurs sous-systèmes phonétiques L1 et L2. Ensuite, il considère que les capacités qui sous-tendent l'acquisition réussie de la parole en L1 restent intactes pendant toute la vie. Il réfute ainsi l’idée selon laquelle l'apprentissage de la parole en L2 serait limité par une période critique (Flege, 2003, p. 327). Ainsi, il a montré que des adultes sont capables d’apprendre des sons L2 aussi bien que les enfants. Ce modèle met également l’accent sur la façon dont les individus apprennent, ou n'apprennent pas, à produire et à percevoir des segments phonétiques (voyelles et consonnes) dans une L2 ; la perception y occupe une place capitale. Selon l’auteur, un apprenant de L2 aurait besoin de distinguer trois catégories de sons : nouveau, similaire et identique. Les sons identiques en L1 et L2 ne posent pas de problème de perception-production. Lorsqu’un /t/ a les mêmes caractéristiques acoustiques et est réalisé avec les mêmes gestes articulatoires dans deux langues, les apprenants appliqueraient la loi de l’économie d’énergie. Ils ne produiront aucun effort en vue de créer une nouvelle catégorie de sons propres à la L2, mais vont tout simplement produire le /t/

124

déjà existant dans leur L1, ce qui nous semble une évidence. Ensuite, les catégories des sons similaires sont théoriquement les plus difficiles pour les apprenants de L2 car ils (les apprenants) ont tendance à calquer la production de ces sons L2 sur celle des sons de la L1. La classification d'équivalence est le processus par lequel les apprenants de L2 perçoivent un son L2 comme une instance d'une catégorie L1, bloquant la formation d'une nouvelle catégorie phonétique. Ceci conduirait à la réalisation du son de la L2 qui dévie de la cible native. Les sons similaires (proches ou voisins) sont par définition ceux qui partagent des points phonétiques identiques, mais divergent sur quelques caractéristiques (formants et durée). Le /i/ français et le /iː/ anglais sont des exemples classiques de sons similaires entre les deux langues. Dans la même lignée, il est communément admis que les francophones produisent souvent un /i/ français à la place du /ɪ/ anglais lorsqu’ils parlent en anglais (Herry-Bénit, 2011, p. 78). Nous rappelons que deux causes possibles peuvent expliquer ce phénomène : soit ils ne perçoivent pas la différence entre les deux sons et concevraient donc ces deux sons comme identiques (voir point précédent), soit ils percevraient la différence, mais auraient des difficultés au niveau articulatoire (nous le verrons avec le modèle présenté dans la section suivante). Enfin, pour le troisième type de sons (identiques), l’auteur stipule qu’ils seraient mieux assimilés, puisqu’ils n’existent pas dans le répertoire phonique de la L1. Toutefois cette condition ne saurait être remplie que lorsque l’apprenant perçoit les éléments phonétiques caractéristiques (durée, hauteur, etc.) nécessaires à la prononciation de ces sons nouveaux. Il faut ainsi entendre qu’il existerait une corrélation étroite entre la perception et la production. Cependant, nous pensons que certains sons défient cette « règle ». La fricative dentale th anglais (le voisé /ð/ et le non voisé /θ/) pour des apprenants francophones ou la voyelle antérieure fermée /y/ français pour les apprenants anglophones sont des exemples de sons nouveaux (n’existant pas dans leur répertoire phonique de base). Pourtant, la prononciation de ces sons poserait problème à ces locuteurs. La parole est un geste moteur qui nécessite un temps d’apprentissage et d’entrainement, la perception étant un prérequis. La corrélation entre perception et production constitue une des critiques majeures portées à l’égard de ce modèle et que le prochain modèle de la sous-section suivante essaie de rectifier.

125

4.6.3 Perceptual Assimilation Model

Le Perceptual Assimilation Model (PAM) est élaboré par Catherine Best et ses collègues (Best 1995 ; Best, McRoberts & Goodell, 2001). Le modèle de Best est, à bien des égards, analogue au SLM, dans la mesure où il a également pour ambition d’expliquer le comportement de l'apprenant dans l'acquisition de sons de la L2, en tenant compte de la perception de la relation entre les sons des L1 et L2. La principale dissemblance réside dans le fait que le PAM fait des hypothèses explicites sur l'articulation. Tout comme le SML de Flege, le PAM prend aussi en compte la relation entre la L1 et la L2 mais ne traite pas les nouveaux sons comme étant parfaitement maitrisables. Sur l’exemple du <th>, Best reconnait l’importance de nouvelles catégories de sons, mais explique que les obstacles articulatoires seraient à la source des difficultés de prononciation des sons nouveaux. Nous prenons un exemple dans la description initiale du PAM dans Best (1995) :

[…] Because the universal phonetic domain and native phonological space are defined by the spatial layout of the vocal tract and the dynamic characteristics of articulatory gestures, those distal properties provide the dimension within which similarity is judged. For a native listener of a language that has no dental stop but does have bilabial, alveolar, and velar stops, the tongue tip constriction of the dental stop is straightforwardly closer in native phonological space to the alveolar place than to the others (p. 193).

Le PAM propose que l'auditeur assimile les sons en tant que sons linguistiques ou non linguistiques113

. Les sons linguistiques sont ensuite assimilés dans les catégories L1 existantes ou comme des sons non catégorisés, qui formeront une nouvelle catégorie à leur tour (cf. sous-section 4.4.3). Les deux types d’assimilations correspondent respectivement aux classifications du SLM, à savoir les sons identiques, similaires et nouveaux. Le PAM introduit également l'idée de bons exemples, non idéaux et déviants de catégories natives. Ici, le son L2 est assimilé à une catégorie native, mais n'est pas nécessairement entendu comme le bon exemple de cette catégorie. Contrairement au SLM, cette approche facilite considérablement l'explication de l'exemple de l'assimilation du [θ] anglais par le /s/ ou /f/ français. L'accent est mis sur la perception des contrastes de L2 par les apprenants L2, plutôt que sur la perception d'un seul son L2. Best a proposé différents types d'assimilation pour tenir compte de la façon dont les composantes d'une

113 Best et collaborateurs (1988) ont trouvé que les auditeurs américains de leur étude ont relativement su discriminer les clics du zoulou mais ils ne les percevaient toutefois pas comme un son linguistique. Les clics sont des consonnes particulières de la langue zoulou parlée en Afrique du Sud. Pour en savoir plus consulter Ladefoged (1996) ou consulter des exemples disponibles sur : http://www.phonetics.ucla.edu/course/chapter6/zulu/zulu.html (consulté le 06/11/2018).

126

paire de contrastes L2 sont assimilés. Ces sons sont alors considérés comme appartenant à deux catégories distinctes, à des exemplaires non idéaux d'une catégorie L1 existante, à des exemplaires plus idéaux de la même catégorie, à de nouveaux sons (non catégorisés), etc. Les catégories L2 distinctes qui ne sont pas assimilées de façon perceptible par une catégorie L1 seront bien discriminées, même en l'absence d'expérience préalable. Cependant, il semble que la plupart des sons de parole L2 soit assimilés perceptiblement par une catégorie L1, du moins au début. Dans ce cas, les sons de parole de la L2 seront discriminés avec plus de précision s'ils sont assimilés par deux sons de parole L1 distincts que s'ils sont assimilés par une seule catégorie de sons de parole L1. Le PAM prédit que la précision de la discrimination peut également être influencée par le degré de similitude acoustico-articulatoire des sons de parole L2, avec les sons de parole L1. Plus précisément, le PAM prédit qu'une paire de sons de parole L2 perçus différemment pour une catégorie L1 sera mieux discriminée qu'une paire de sons de parole L2 ayant la même qualité d'adéquation qu’un son de la catégorie L1. Par exemple, les locuteurs japonais sont susceptibles d'assimiler l'anglais /r/ et /l/ comme de mauvais exemples d'un seul phonème japonais (/r/ ou peut-être /w), et de mal discriminer le contraste /r/-/l/ (Best, 1995). Kartushina & Frauenfelder (2013, p. 2118) résument les trois types d’assimilation en ces termes :

Three patterns of L2 contrast assimilation are distinguished: Two-Category (TC) assimilation, the two L2 sounds map onto two different L1 categories; Category- Goodness (CG) assimilation, both L2 sounds map onto one L1 category, but one L2 sound is a better exemplar of this L1 category than the other; and Single-Category (SC) assimilation, both L2 sounds are equally good exemplars. Because in SC and CG assimilations both L2 sounds assimilate to one native category, these L2 contrasts are claimed to be more difficult to acquire than the L2 contrasts that show the TC assimilation pattern.

4.6.4 Native Language Magnet

Le principal objectif du modèle du Native Language Magnet (NLM) mis au point par Patricia Kuhl et ses collègues (Davis & Kuhl, 1994 ; Kuhl, 2010 ; Kuhl et al., 2008 ; Kuhl & Meltzoff, 1996) est de rendre compte de la transition du traitement perceptif auditif au traitement perceptif spécifique au langage. Ayant fait l’objet de modifications au cours des années, le modèle est passé de son appellation originelle Perceptual Magnet Effect –PME (Davis & Kuhl, 1994) à sa version révisée, le Native Language Magnet theory Expanded (NLM-e - Kuhl et al., 2008). Du NLM avec ses trois phases de développement au NLM-e « révisé » à cinq étapes clés, Kuhl et al., 2008, proposent :

127

[…] A model of early speech perception termed the NLM model, which focused on infants’ native phonetic categories and how they could be structured through ambient language experience (p. 982). […] NLM-e predicts an association between infants’ early perception of native language phonetic units and later language development, an association that differs for native and non-native perception. […] NLM-e predicts strong linkages between the perceptual representations formed through experience with language and vocal imitation […] A distinction can be drawn between NLM-e and motor theories, and also between NLM-e and the hypothesized ‘mirror neurone’ system, a neural system that reacts to actions produced by others as identical to the same actions produced by oneself (p. 985).

La perception des sons fonctionnerait comme un aimant qui attire tous les exemplaires sans distinction. Cet effet magnétique, qui empêche les exemplaires de se classer en catégories rendrait l’opposition phonético-phonologique difficile :

NLM assumes that speech perception involves general auditory mechanisms that process acoustic rather than specifically phonetic information. In NLM, native prototypes have magnetlike effects, in which the nearby perceptual space is “shrunk,” making it more difficult to discriminate phonetic variation around prototypes than around non-prototypes, or poor exemplars, of the same category (Best, McRoberts, & Goodell, 2001, p. 3).

Les auteurs proposent que les premières expériences conditionnent la perception des propriétés acoustiques des sons de la parole. Selon eux, les nourrissons trient perceptiblement les unités de la taille d'un segment en catégories en fonction de la récurrence (fréquence d’exemplaires) des caractéristiques qu'ils ont détectées en entrée vocale. Il en résulterait une mise en correspondance spécifique à la langue, entre les catégories développées pour les sons de parole L1 et l'entrée phonétique qui anime cet aspect crucial de l'acquisition du langage. Kuhl (2010) avance que la cartographie114

perceptive des sons ambiants de la parole crée un « réseau complexe », ou filtre, à travers lequel le langage est perçu. Nous pouvons tout à fait établir le lien avec la notion du crible phonologique de Troubetzkoy (1939). En effet, les résultats traditionnels sur la perception de la parole chez les non-natifs suggèrent que les adultes ont des difficultés à distinguer les oppositions des segments qui ne sont pas employés phonologiquement dans leur propre langue, alors que les enfants y arrivent. La perception que les adultes ont des contrastes de la parole serait fortement influencée par leur expérience du système phonologique de leur langue maternelle (Best, McRoberts & Goodell, 2001). Une explication traditionnelle de ce phénomène a été une version perceptive du concept de « filtre phonologique » (Troubetzkoy, 1939).

114 Mappage ou mapping : ensemble d’images associées à chaque son pour former des catégories (voir l’AII de Neufeld).

128

Le NLM précise que l’harmonisation perceptive avec les catégories L1 peut plus tard façonner la perception des sons de parole L2. Des effets d'interférence peuvent survenir en raison de la difficulté inhérente à la séparation fonctionnelle des différentes catégories. Un engagement neuronal envers les mappages des catégories L1 influencera plus tard le traitement des sons vocaux L2. Il est important de noter que le NLM propose que les contraintes sur la perception des sons de parole L2 proviennent d'expériences antérieures et non d'une perte de plasticité, résultant d'une maturation neuronale normale. Cependant, selon la NLM, l'apprentissage perceptif des adultes n'est pas impossible. Kuhl et al. (2008) a suggéré que l'influence de l'expérience antérieure peut être minime pour les enfants qui apprennent deux langues simultanément dans leur petite enfance, du moins si « deux cartographies différentes115

» sont acquises pour les sons de parole L1 et L2. La meilleure façon pour les apprenants adultes d'une L2 de contourner les effets de l'interférence L1 peut être de récapituler l'expérience de la parole L1, c'est-à-dire de recevoir des signaux acoustiques exagérés, de multiples instances (exemplaires) par de nombreux orateurs et une expérience d'écoute en masse.

Nous arrivons à la fin de ce chapitre. Nous venons de présenter quatre modèles qui expliquent et prédisent l’acquisition de la prononciation en général. Nous retenons que bien qu’ils diffèrent sur certains points, leurs hypothèses de fonctionnement vont dans le même sens, à savoir l’’influence de la L1 sur la L2 et le phénomène de l’imitation vocale qui tous deux sous-tendent l’acquisition de la matière phonique.

4.7 Conclusion

L’imitation est un facteur primordial du développement cognitif et social chez l’enfant et chez l’adulte. Facilitée par des capacités perceptivo-motrices, elle permettrait de comprendre, de communiquer et d’interagir avec l’environnement dans lequel nous évoluons. Ainsi, nous avons traité du rôle que jouent les neurones miroirs dans l’apprentissage par imitation et dans la compréhension des gestes d’autrui. Il s’agit d’un mécanisme qui nous permet non seulement

Dans le document Apprentissage informel de l'anglais en ligne : quelles conséquences sur la prononciation des étudiants français ? (Page 131-141)