3.2 Comment se développent les invariants des unités distinctives ?
3.2.2 Des représentations sensorielles et motrices si différentes ? Une focalisa-
Nous avons analysé précédemment l’acquisition des processus de perception et de production.
Nous avons observé que dans les deux cas, l’apprentissage se fait assez différemment, le premier
semblant être guidé par des connaissances précoces puis se focalisant sur les stimuli de la langue
tandis que le second s’effectue de manière plus progressive. Nous allons maintenant nous pencher sur
les différents mécanismes permettant ces différents apprentissages.
Cette section relate donc les mécanismes utilisés durant le développement de la perception et de
la production et montre que, malgré les différences d’apprentissage, les deux processus sont guidés
par l’interaction sociale et focalisés sur les stimuli de l’environnement.
3.2.2.1 Perception : un apprentissage statistique avant tout
Dans le contexte des débats multiples et souvent âpres entre approches behavioristes
4et
théo-ries nativistes, notamment Chomskyennes
5, il est maintenant de plus en plus admis que les bébés
semblent, en réalité, mettre en oeuvre des mécanismes d’apprentissage statistique leur permettant
d’acquérir des connaissances sur la structure des stimuli de leur environnement. L’apprentissage
sta-tistique concerne un grand pan de la littérature linguistique incluant entre autres la segmentation des
mots (Johnson et Tyler, 2010; Pelucchi et al., 2009; Saffran et al., 1996; Swingley, 2005), la
syn-taxe (Kidd, 2012; Thompson et Newport, 2007) et, bien sûr, la phonétique et la phonologie (Maye
et al., 2008, 2002; Yoshida et al., 2010). Dans cette section, nous nous concentrons essentiellement
sur l’apprentissage statistique phonétique.
Une des premières études à ce sujet est celle de Maye et al. (2002), analysant le rôle de la
compo-sition des données d’apprentissage dans les performances de catégorisation. Pour cela, ils testent des
bébés de 6 à 8 mois sur des stimuli faisant partie d’un continuum [da]-[ta] composé de 8 intervalles
de valeurs. Ils utilisent deux groupes : un groupe « unimodal » dans lequel les bébés perçoivent plus
fréquemment les intervalles 4 et 5 (au centre du continuum) et un groupe « bimodal » dans lequel les
bébés perçoivent plus fréquemment les intervalles 2 (plus proche d’un [da]) et 7 (plus proche d’un
[ta]). Par la suite, ils examinent les bébés dans une tâche de perception sur ce même continuum. Les
auteurs montrent que les bébés du groupe « unimodal » traitent l’ensemble des stimuli comme des
stimuli similaires et ne semblent pas percevoir la différence entre les deux catégories phonétiques. Au
contraire, les bébés du groupe « bimodal » font la distinction entre les deux catégories. Cela laisse
supposer que les bébés apprennent à discriminer les sons en catégories en suivant la statistique de leur
langue.
De plus, la statistique pourrait influer sur les distributions qui sont discriminées ou non en fin
d’apprentissage. Ainsi, l’apprentissage focalisé sur les stimuli propres à la langue pourrait être une
potentielle explication au perceptual narrowing (Werker, 1994). Pour appuyer ce propos, Anderson
et al. (2003) montrent que la fréquence des stimuli de la langue natale influe sur la vitesse de la perte
de discrimination des stimuli non-natifs. Ils testent des bébés anglais de 6 mois et demi et 8 mois
et demi sur leur capacité à discriminer un contraste coronal et un contraste dorsal. Du fait que les
consonnes coronales sont plus fréquentes que les dorsales en anglais, ils supposent que le premier
contraste doit disparaître avant le second. Ils observent que les bébés de 6 mois et demi discriminent
tous les contrastes et que ceux de 8 mois et demi discriminent moins bien le contraste coronal, ce qui
est en accord avec leur hypothèse.
Par la suite, Maye et al. (2008) proposent deux autres expérimentations, dont l’objectif consiste
à analyser si la familiarisation à des stimuli améliore la discrimination et si oui, si cette amélioration
peut se généraliser à d’autres stimuli. Pour cela, ils étudient des bébés de 8 mois en les familiarisant
à des stimuli appartenant à un continuum de VOT [da]-[ta] ou [ga]-[ka]. Les bébés sont séparés en
deux groupes : un groupe « unimodal », dans lequel ils perçoivent davantage des stimuli au centre
4. Le langage est selon cette tradition un « comportement » qui s’apprend par une suite d’expériences et de renforcement (voir, par exemple, Skinner, 1957).5. Les bébés possèderaient selon ce cadre théorique des connaissances linguistiques innées (voir, par exemple, Chomsky, 1959).
du continuum, un groupe « bimodal » de bébés qui perçoivent davantage des stimuli aux extrémités
du continuum. Un groupe contrôle, testé sur des stimuli en dehors de ce continuum, sert de groupe
de référence. Par la suite, avec la technique HT, ils testent les bébés sur leur discrimination des
sti-muli bimodaux. Ils montrent, d’une part, que ceux entrainés dans le groupe « bimodal » discriminent
mieux que ceux des autres groupes mais qu’en plus, les bébés de ce même groupe, familiarisés avec
les stimuli [da]-[ta], discriminent également mieux les stimuli [ga]-[ka] et réciproquement. Ils en
dé-duisent que l’apprentissage statistique permet de mieux se focaliser sur les stimuli entendus et que cet
apprentissage concerne des caractéristiques invariantes communes à diverses catégories phonétiques.
Si cet apprentissage statistique semble efficace, on peut se demander s’il permet d’acquérir et de
distinguer les allophones des phonèmes. Les allophones correspondent aux différentes variantes d’un
même phonème, ceci dans une langue donnée. Il y a deux sortes d’allophones, ceux dont les
varia-tions s’échangent librement et ceux qui sont utilisés de façon complémentaire dans certains contextes.
Par exemple, [r] et [l] sont des phonèmes en français puisqu’on trouve des mots comme « bar » et
« bal » où les deux contrastes permettent de différencier les mots. En revanche, [ö] et [K] sont deux
allophones du premier type du phonème [r] en français et peuvent être utilisés indifféremment l’un
ou l’autre, tout comme [r] et [l] en japonais. De même, les consonnes [t] et [t
h] sont deux allophones
anglais mais du second type car ils s’utilisent dans des contextes différents. La question est alors de
savoir si les bébés sont capables d’apprendre à associer deux allophones d’un même phonème à une
seule catégorie phonémique. Les distributions des occurrences des successions de sons dans la langue
fournissent en effet des informations qui permettent, en théorie, d’apprendre la relation entre phonème
et allophone Peperkamp et al. (2006). Si les allophones libres semblent pouvoir être fusionnés assez
vite en une seule classe grâce à l’apprentissage statistique, comme le montre le déclin des contrastes
non-natifs (Werker, 1994), l’apprentissage des allophones du second type est questionnable. En
utili-sant une grammaire artificielle, White et al. (2008) testent si les bébés de 8 et 12 mois peuvent faire
la distinction entre des contrastes allophoniques contraints. Ils montrent que les bébés de 8 mois
dis-tinguent les deux contrastes allophoniques comme des phonèmes différents tandis que ceux de 12
mois, bien que percevant le contraste allophonique, apprennent à lui associer une unique catégorie.
Ainsi, les bébés semblent avoir la capacité de faire la différence entre phonèmes et allophones durant
leur apprentissage (voir aussi Seidl et Cristia, 2012, pour une revue).
L’acquisition de ce second type d’allophones fait le lien avec un autre type d’acquisition
statis-tique, celui concernant les combinaisons de phonèmes propres à chaque langue, ce qu’on nomme
généralement l’apprentissage phonotactique (Friederici et Wessels, 1993; Jusczyk et al., 1993;
Jusc-zyk et Luce, 1994; Saffran, 2003). Par exemple, dans JuscJusc-zyk et Luce (1994), des bébés américains de
6 mois et 9 mois sont testés sur leur préférences phonotactiques. S’appuyant sur le fait que les bébés
écoutent plus longtemps les stimuli avec lesquels ils sont familiers
6, ils utilisent la méthode HT sur
deux listes d’items : l’une avec des combinaisons de phonèmes peu probables et l’autre très probables.
Ils observent que les bébés de 9 mois, mais pas ceux de 6 mois, écoutent plus longtemps la liste avec
les combinaisons hautement probables. Ils en déduisent que les bébés apprennent des éléments de la
phonotactique de leur langue.
6. Nous avons relaté précédemment une étude qui s’appuyait sur l’hypothèse inverse selon laquelle les bébés s’orientent vers des stimuli nouveaux. Ces hypothèses sont souvent débattues dans la littérature du développement, mais nous ne les traitons pas dans cette thèse. Nous donnons juste les hypothèses de départ des études considérées.
Néanmoins, les prouesses de l’apprentissage statistique auditif, qu’elles soient phonémiques,
al-lophoniques ou phonotactiques, nécessitent d’être nuancées ou remises en contexte. D’abord,
l’ap-prentissage de certains contrastes phonétiques peut être influencé par d’autres modalités, par exemple
visuelle, ou par des effets de contexte, qu’ils soient associés aux contraintes lexicales ou à d’autres
facteurs cognitifs (Conboy et al., 2008b; Teinonen et al., 2008; Yeung et Werker, 2009). À titre
d’illus-tration, Teinonen et al. (2008) testent l’apport de la modalité visuelle. Ils entraînent des bébés de 6
mois sur un continuum [ba-da] en suivant une distribution unimodale et analysent deux conditions
visuelles. Dans la première, les bébés sont familiarisés sur des stimuli bimodaux dont l’articulation
visuelle correspond à la syllabe entendue (le milieu du continuum étant pris comme point de
sépara-tion). Dans la seconde, les bébés sont familiarisés à des stimuli bimodaux dans lesquels l’articulation
visuelle, quel que soit le stimulus acoustique, est celle de la syllabe [ba] pour un premier sous-groupe
ou de la syllabe [da] dans un second sous-groupe. Dans la phase de test, ils observent que seuls les
bébés du premier groupe perçoivent les contrastes [ba-da], montrant ainsi que la modalité visuelle
peut conditionner l’efficacité et les résultats de l’apprentissage.
Par ailleurs, cet apprentissage ne semble avoir lieu qu’en cas d’interaction sociale (Kuhl et al.,
2003). Dans leur expérimentation, Kuhl et al. (2003) testent l’apprentissage de contrastes en chinois
mandarins chez des bébés américains de 9 mois dans deux conditions : soit les bébés sont directement
exposés à des locuteurs chinois, soit ils écoutent et regardent une vidéo de locuteurs chinois,
présen-tées sur un écran. Les auteurs montrent que seuls les bébés dans la première condition apprennent à
discriminer les contrastes chinois, mettant ainsi en évidence l’importance de l’interaction sociale.
En résumé, le processus de perception semble être en grande partie dû à un apprentissage
statis-tique qui permet non seulement de se focaliser sur les contrastes et spécificités propres à sa langue
mais également de perdre la discrimination des contrastes qui ne sont pas utiles dans sa langue natale.
3.2.2.2 Mécanismes de l’apprentissage en production et points communs avec la perception
Comme nous venons de le voir, l’environnement acoustique dans lequel baigne le bébé dès le
plus jeune âge influence le développement de sa perception. De la même façon, il joue un rôle
éga-lement dans le développement de sa production. Cette influence de l’environnement se remarque
dès les premiers jours de vie lors desquels il est observé que le bébé crie en suivant la mélodie de sa
langue (Mampe et al., 2009). L’interprétation donnée est que l’influence de l’environnement sur la
pro-duction commence in utero. À ce stade, cela semble concerner majoritairement les traits prosodiques.
Lors du développement, la focalisation sur les caractéristiques prosodiques continue (par exemple,
de Boysson-Bardies et al., 1984) mais celle sur les catégories phonétiques propres à la langue se
remarque également.
Dans une première étude, de Boysson-Bardies et al. (1989) analysent les productions des voyelles
de bébés de 10 mois ayant pour langue native le français, l’anglais, le cantonais ou l’arabe. Ils mettent
en évidence des différences significatives entre les productions des bébés n’ayant pas la même langue
native. Par la suite, une expérimentation similaire par de Boysson-Bardies et Vihman (1991) est
ef-fectuée sur des bébés ayant pour langue native le français, l’anglais, le japonais et le suédois. Des
enregistrements sont effectués à partir de 9 mois pendant la phase de babillage et jusqu’à la
produc-tion des 25 premiers mots. Cette fois-ci, les auteurs montrent que les consonnes sont significativement
différentes entre les bébés de différentes langues natives. Si l’apprentissage statistique explique la
focalisation de l’apprentissage perceptif sur les sons de l’environnement, comment expliquer cette
apparente focalisation en production ?
Dès la naissance, les bébés sont motivés par l’interaction sociale (Bloom, 1975; Kuhl, 2007; Stark,
1980). Nous avons vu l’importance de cette interaction en perception et il semblerait qu’elle ait
égale-ment une influence sur la production. Par exemple, les bébés semblent produire davantage de sons de
parole lorsque cette interaction respecte les « normes » d’une conversation. Dans cette optique, Bloom
et al. (1987) testent les productions de bébés anglais de 0 à 3 mois. Dans une première phase, ils
en-registrent les bébés avec et sans interaction avec un adulte. Durant l’interaction, ils mettent en place
deux situations : soit les tours de parole sont respectés, c’est-à-dire que l’adulte répond après chaque
production du bébé, soit les réponses de l’adulte s’effectuent selon un scénario préparé sans prendre
en compte les productions du bébé. Dans une seconde phase, d’autres participants doivent ensuite
dé-finir si les enregistrements entendus correspondent selon eux à des sons de parole ou non. Les auteurs
montrent que l’interaction engendre davantage de sons de parole. Ainsi, l’environnement dans lequel
se trouve le bébé semble influencer directement sur sa production (voir aussi Bloom, 1988; Kuhl et
Meltzoff, 1982; Masataka, 1993). Pour expliquer cet effet, Bloom (1988) suppose que l’interaction
donne l’opportunité au bébé d’imiter les productions de l’adulte.
Cette hypothèse est renforcée par le fait que les bébés sont capables d’imitation dès les premiers
jours de vie (Field et al., 1983; Meltzoff et Moore, 1977; Vinter, 1986). Plus radicalement, il est
sup-posé que le bébé acquiert ses capacités de production en partie grâce à l’imitation, ce que Kuhl et
Meltzoff (1996) résument sous le nom « d’apprentissage vocal » (vocal learning). Comme les résultats
de Mampe et al. (2009), cette imitation semble concerner en grande partie les traits prosodiques
(Kes-sen et al., 1979; Papoušek et Papoušek, 1981). Cependant, Kuhl et Meltzoff (1996) trouvent également
une imitation pour les catégories phonétiques. Ils observent notamment que les bébés âgés entre 3 et 5
mois, écoutant une voyelle particulière parmi [i, a, u], produisent davantage de vocalisations
ressem-blant à cette voyelle.
Malgré tout, cette hypothèse imitative n’est pas retenue par tous. Avec des études similaires à
celle de Bloom et al. (1987) sur des bébés de 7 à 10 mois capables de babiller, Goldstein et collègues
observent que le babillage des bébés n’est pas une imitation de ce que produisent les adultes, même si
les productions augmentent significativement avec l’interaction sociale (Goldstein et al., 2003;
Gold-stein et Schwade, 2008). Les auteurs supposent plutôt que les interactions permettent aux bébés de
découvrir les régularités statistiques de la production des adultes, ce qui leur permet de guider le
développement de leur propre production.
Si on suit cette seconde hypothèse, la statistique de l’environnement et l’interaction sociale
per-mettraient de guider également la production tout comme elles guident la perception. Ainsi les deux
processus, malgré leurs différences, se serviraient de mécanismes similaires pour leur apprentissage.
Nous pouvons donc supposer en conséquence que le lien phonétique entre perception et production
pourrait apparaître dès le plus jeune âge. C’est effectivement ce que semblent montrer au moins deux
études sur le sujet (voir aussi Munson et al., 2011; Polka et al., 2007, pour des revues).
et gallois. Dans une première phase, ils enregistrent deux fois par mois des bébés anglais et gallois
âgés entre 10,5 et 12 mois durant des sessions d’une demi-heure où les bébés interagissent avec leur
mère. À 12 mois et demi, ils les testent sur leur capacité à discriminer les contrastes [t] et [s] pour
les bébés anglais et [b] et [g] pour les bébés gallois en utilisant la méthode HT. Les auteurs observent
que les temps d’écoute de ces contrastes sont corrélés inversement à la capacité de production de
ces mêmes contrastes. Dit autrement, les bébés écoutent les contrastes plus longtemps lorsqu’ils les
produisent le moins souvent. Cette corrélation confirme l’existence d’un lien entre les représentations
en production et en perception.
Dans une expérimentation similaire, DePaolis et al. (2011) testent la production et la perception
de bébés anglais âgés entre 9 et 11 mois. Dans une première phase, ils enregistrent des bébés dans
plusieurs périodes d’une demi-heure lors d’interaction avec leurs parents. De ces enregistrements, ils
analysent les consonnes produites et, pour chaque bébé, ils les séparent en trois groupes :
fréquem-ment produites (groupe « own »), peu produites par le bébé mais fréquemfréquem-ment produites à cet âge
pour d’autres bébés (groupe « other »), et rarement produites (groupe « rare »). Dans une tâche de
perception, en utilisant la méthode HT, ils comparent les enfants disposant d’une unique consonne
« own » de ceux en disposant de plusieurs. Ils observent une tendance à ce que les enfants ayant une
unique consonne « own » écoutent plus longtemps les contrastes « own ». Mais, de manière
significa-tive, les enfants disposant de plusieurs consonnes « own » préfèrent écouter les contrastes « other ».
Aucune préférence n’est montrée pour les contrastes « rare ». Ils en déduisent que la production a une
influence sur les préférences perceptives.
En résumé, bien que les mécanismes exacts fassent encore débat, la production paraît, elle aussi,
influencée par l’environnement. Cela laisse supposer que les processus de perception et production
phonétiques sont liés, ce que semblent confirmer les données expérimentales.
3.2.2.3 Conclusion
Pour synthétiser, les deux processus de perception et de production semblent tous deux se focaliser
sur les stimuli de l’environnement. Le processus de perception paraît essentiellement basé sur un
apprentissage statistique des stimuli de l’environnement. De son côté, le processus de production,
bien que plus tardif, semble être influencé par l’environnement, à travers l’utilisation de l’interaction
sociale.
Nous nous servons de ces observations dans nos futures modélisations, notamment pour réaliser
le développement auditif et moteur de notre modèle.
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 45-50)