Des représentations sensorielles et motrices si différentes ? Une focalisa-

3.2 Comment se développent les invariants des unités distinctives ?

3.2.2 Des représentations sensorielles et motrices si différentes ? Une focalisa-

Nous avons analysé précédemment l’acquisition des processus de perception et de production.

Nous avons observé que dans les deux cas, l’apprentissage se fait assez différemment, le premier

semblant être guidé par des connaissances précoces puis se focalisant sur les stimuli de la langue

tandis que le second s’effectue de manière plus progressive. Nous allons maintenant nous pencher sur

les différents mécanismes permettant ces différents apprentissages.

Cette section relate donc les mécanismes utilisés durant le développement de la perception et de

la production et montre que, malgré les différences d’apprentissage, les deux processus sont guidés

par l’interaction sociale et focalisés sur les stimuli de l’environnement.

3.2.2.1 Perception : un apprentissage statistique avant tout

Dans le contexte des débats multiples et souvent âpres entre approches behavioristes

et

théo-ries nativistes, notamment Chomskyennes

, il est maintenant de plus en plus admis que les bébés

semblent, en réalité, mettre en oeuvre des mécanismes d’apprentissage statistique leur permettant

d’acquérir des connaissances sur la structure des stimuli de leur environnement. L’apprentissage

sta-tistique concerne un grand pan de la littérature linguistique incluant entre autres la segmentation des

mots (Johnson et Tyler, 2010; Pelucchi et al., 2009; Saffran et al., 1996; Swingley, 2005), la

syn-taxe (Kidd, 2012; Thompson et Newport, 2007) et, bien sûr, la phonétique et la phonologie (Maye

et al., 2008, 2002; Yoshida et al., 2010). Dans cette section, nous nous concentrons essentiellement

sur l’apprentissage statistique phonétique.

Une des premières études à ce sujet est celle de Maye et al. (2002), analysant le rôle de la

compo-sition des données d’apprentissage dans les performances de catégorisation. Pour cela, ils testent des

bébés de 6 à 8 mois sur des stimuli faisant partie d’un continuum [da]-[ta] composé de 8 intervalles

de valeurs. Ils utilisent deux groupes : un groupe « unimodal » dans lequel les bébés perçoivent plus

fréquemment les intervalles 4 et 5 (au centre du continuum) et un groupe « bimodal » dans lequel les

bébés perçoivent plus fréquemment les intervalles 2 (plus proche d’un [da]) et 7 (plus proche d’un

[ta]). Par la suite, ils examinent les bébés dans une tâche de perception sur ce même continuum. Les

auteurs montrent que les bébés du groupe « unimodal » traitent l’ensemble des stimuli comme des

stimuli similaires et ne semblent pas percevoir la différence entre les deux catégories phonétiques. Au

contraire, les bébés du groupe « bimodal » font la distinction entre les deux catégories. Cela laisse

supposer que les bébés apprennent à discriminer les sons en catégories en suivant la statistique de leur

langue.

De plus, la statistique pourrait influer sur les distributions qui sont discriminées ou non en fin

d’apprentissage. Ainsi, l’apprentissage focalisé sur les stimuli propres à la langue pourrait être une

potentielle explication au perceptual narrowing (Werker, 1994). Pour appuyer ce propos, Anderson

et al. (2003) montrent que la fréquence des stimuli de la langue natale influe sur la vitesse de la perte

de discrimination des stimuli non-natifs. Ils testent des bébés anglais de 6 mois et demi et 8 mois

et demi sur leur capacité à discriminer un contraste coronal et un contraste dorsal. Du fait que les

consonnes coronales sont plus fréquentes que les dorsales en anglais, ils supposent que le premier

contraste doit disparaître avant le second. Ils observent que les bébés de 6 mois et demi discriminent

tous les contrastes et que ceux de 8 mois et demi discriminent moins bien le contraste coronal, ce qui

est en accord avec leur hypothèse.

Par la suite, Maye et al. (2008) proposent deux autres expérimentations, dont l’objectif consiste

à analyser si la familiarisation à des stimuli améliore la discrimination et si oui, si cette amélioration

peut se généraliser à d’autres stimuli. Pour cela, ils étudient des bébés de 8 mois en les familiarisant

à des stimuli appartenant à un continuum de VOT [da]-[ta] ou [ga]-[ka]. Les bébés sont séparés en

deux groupes : un groupe « unimodal », dans lequel ils perçoivent davantage des stimuli au centre

4. Le langage est selon cette tradition un « comportement » qui s’apprend par une suite d’expériences et de renforcement (voir, par exemple, Skinner, 1957).

5. Les bébés possèderaient selon ce cadre théorique des connaissances linguistiques innées (voir, par exemple, Chomsky, 1959).

du continuum, un groupe « bimodal » de bébés qui perçoivent davantage des stimuli aux extrémités

du continuum. Un groupe contrôle, testé sur des stimuli en dehors de ce continuum, sert de groupe

de référence. Par la suite, avec la technique HT, ils testent les bébés sur leur discrimination des

sti-muli bimodaux. Ils montrent, d’une part, que ceux entrainés dans le groupe « bimodal » discriminent

mieux que ceux des autres groupes mais qu’en plus, les bébés de ce même groupe, familiarisés avec

les stimuli [da]-[ta], discriminent également mieux les stimuli [ga]-[ka] et réciproquement. Ils en

dé-duisent que l’apprentissage statistique permet de mieux se focaliser sur les stimuli entendus et que cet

apprentissage concerne des caractéristiques invariantes communes à diverses catégories phonétiques.

Si cet apprentissage statistique semble efficace, on peut se demander s’il permet d’acquérir et de

distinguer les allophones des phonèmes. Les allophones correspondent aux différentes variantes d’un

même phonème, ceci dans une langue donnée. Il y a deux sortes d’allophones, ceux dont les

varia-tions s’échangent librement et ceux qui sont utilisés de façon complémentaire dans certains contextes.

Par exemple, [r] et [l] sont des phonèmes en français puisqu’on trouve des mots comme « bar » et

« bal » où les deux contrastes permettent de différencier les mots. En revanche, [ö] et [K] sont deux

allophones du premier type du phonème [r] en français et peuvent être utilisés indifféremment l’un

ou l’autre, tout comme [r] et [l] en japonais. De même, les consonnes [t] et [t

] sont deux allophones

anglais mais du second type car ils s’utilisent dans des contextes différents. La question est alors de

savoir si les bébés sont capables d’apprendre à associer deux allophones d’un même phonème à une

seule catégorie phonémique. Les distributions des occurrences des successions de sons dans la langue

fournissent en effet des informations qui permettent, en théorie, d’apprendre la relation entre phonème

et allophone Peperkamp et al. (2006). Si les allophones libres semblent pouvoir être fusionnés assez

vite en une seule classe grâce à l’apprentissage statistique, comme le montre le déclin des contrastes

non-natifs (Werker, 1994), l’apprentissage des allophones du second type est questionnable. En

utili-sant une grammaire artificielle, White et al. (2008) testent si les bébés de 8 et 12 mois peuvent faire

la distinction entre des contrastes allophoniques contraints. Ils montrent que les bébés de 8 mois

dis-tinguent les deux contrastes allophoniques comme des phonèmes différents tandis que ceux de 12

mois, bien que percevant le contraste allophonique, apprennent à lui associer une unique catégorie.

Ainsi, les bébés semblent avoir la capacité de faire la différence entre phonèmes et allophones durant

leur apprentissage (voir aussi Seidl et Cristia, 2012, pour une revue).

L’acquisition de ce second type d’allophones fait le lien avec un autre type d’acquisition

statis-tique, celui concernant les combinaisons de phonèmes propres à chaque langue, ce qu’on nomme

généralement l’apprentissage phonotactique (Friederici et Wessels, 1993; Jusczyk et al., 1993;

Jusc-zyk et Luce, 1994; Saffran, 2003). Par exemple, dans JuscJusc-zyk et Luce (1994), des bébés américains de

6 mois et 9 mois sont testés sur leur préférences phonotactiques. S’appuyant sur le fait que les bébés

écoutent plus longtemps les stimuli avec lesquels ils sont familiers

, ils utilisent la méthode HT sur

deux listes d’items : l’une avec des combinaisons de phonèmes peu probables et l’autre très probables.

Ils observent que les bébés de 9 mois, mais pas ceux de 6 mois, écoutent plus longtemps la liste avec

les combinaisons hautement probables. Ils en déduisent que les bébés apprennent des éléments de la

phonotactique de leur langue.

6. Nous avons relaté précédemment une étude qui s’appuyait sur l’hypothèse inverse selon laquelle les bébés s’orientent vers des stimuli nouveaux. Ces hypothèses sont souvent débattues dans la littérature du développement, mais nous ne les traitons pas dans cette thèse. Nous donnons juste les hypothèses de départ des études considérées.

Néanmoins, les prouesses de l’apprentissage statistique auditif, qu’elles soient phonémiques,

al-lophoniques ou phonotactiques, nécessitent d’être nuancées ou remises en contexte. D’abord,

l’ap-prentissage de certains contrastes phonétiques peut être influencé par d’autres modalités, par exemple

visuelle, ou par des effets de contexte, qu’ils soient associés aux contraintes lexicales ou à d’autres

facteurs cognitifs (Conboy et al., 2008b; Teinonen et al., 2008; Yeung et Werker, 2009). À titre

d’illus-tration, Teinonen et al. (2008) testent l’apport de la modalité visuelle. Ils entraînent des bébés de 6

mois sur un continuum [ba-da] en suivant une distribution unimodale et analysent deux conditions

visuelles. Dans la première, les bébés sont familiarisés sur des stimuli bimodaux dont l’articulation

visuelle correspond à la syllabe entendue (le milieu du continuum étant pris comme point de

sépara-tion). Dans la seconde, les bébés sont familiarisés à des stimuli bimodaux dans lesquels l’articulation

visuelle, quel que soit le stimulus acoustique, est celle de la syllabe [ba] pour un premier sous-groupe

ou de la syllabe [da] dans un second sous-groupe. Dans la phase de test, ils observent que seuls les

bébés du premier groupe perçoivent les contrastes [ba-da], montrant ainsi que la modalité visuelle

peut conditionner l’efficacité et les résultats de l’apprentissage.

Par ailleurs, cet apprentissage ne semble avoir lieu qu’en cas d’interaction sociale (Kuhl et al.,

2003). Dans leur expérimentation, Kuhl et al. (2003) testent l’apprentissage de contrastes en chinois

mandarins chez des bébés américains de 9 mois dans deux conditions : soit les bébés sont directement

exposés à des locuteurs chinois, soit ils écoutent et regardent une vidéo de locuteurs chinois,

présen-tées sur un écran. Les auteurs montrent que seuls les bébés dans la première condition apprennent à

discriminer les contrastes chinois, mettant ainsi en évidence l’importance de l’interaction sociale.

En résumé, le processus de perception semble être en grande partie dû à un apprentissage

statis-tique qui permet non seulement de se focaliser sur les contrastes et spécificités propres à sa langue

mais également de perdre la discrimination des contrastes qui ne sont pas utiles dans sa langue natale.

3.2.2.2 Mécanismes de l’apprentissage en production et points communs avec la perception

Comme nous venons de le voir, l’environnement acoustique dans lequel baigne le bébé dès le

plus jeune âge influence le développement de sa perception. De la même façon, il joue un rôle

éga-lement dans le développement de sa production. Cette influence de l’environnement se remarque

dès les premiers jours de vie lors desquels il est observé que le bébé crie en suivant la mélodie de sa

langue (Mampe et al., 2009). L’interprétation donnée est que l’influence de l’environnement sur la

pro-duction commence in utero. À ce stade, cela semble concerner majoritairement les traits prosodiques.

Lors du développement, la focalisation sur les caractéristiques prosodiques continue (par exemple,

de Boysson-Bardies et al., 1984) mais celle sur les catégories phonétiques propres à la langue se

remarque également.

Dans une première étude, de Boysson-Bardies et al. (1989) analysent les productions des voyelles

de bébés de 10 mois ayant pour langue native le français, l’anglais, le cantonais ou l’arabe. Ils mettent

en évidence des différences significatives entre les productions des bébés n’ayant pas la même langue

native. Par la suite, une expérimentation similaire par de Boysson-Bardies et Vihman (1991) est

ef-fectuée sur des bébés ayant pour langue native le français, l’anglais, le japonais et le suédois. Des

enregistrements sont effectués à partir de 9 mois pendant la phase de babillage et jusqu’à la

produc-tion des 25 premiers mots. Cette fois-ci, les auteurs montrent que les consonnes sont significativement

différentes entre les bébés de différentes langues natives. Si l’apprentissage statistique explique la

focalisation de l’apprentissage perceptif sur les sons de l’environnement, comment expliquer cette

apparente focalisation en production ?

Dès la naissance, les bébés sont motivés par l’interaction sociale (Bloom, 1975; Kuhl, 2007; Stark,

1980). Nous avons vu l’importance de cette interaction en perception et il semblerait qu’elle ait

égale-ment une influence sur la production. Par exemple, les bébés semblent produire davantage de sons de

parole lorsque cette interaction respecte les « normes » d’une conversation. Dans cette optique, Bloom

et al. (1987) testent les productions de bébés anglais de 0 à 3 mois. Dans une première phase, ils

en-registrent les bébés avec et sans interaction avec un adulte. Durant l’interaction, ils mettent en place

deux situations : soit les tours de parole sont respectés, c’est-à-dire que l’adulte répond après chaque

production du bébé, soit les réponses de l’adulte s’effectuent selon un scénario préparé sans prendre

en compte les productions du bébé. Dans une seconde phase, d’autres participants doivent ensuite

dé-finir si les enregistrements entendus correspondent selon eux à des sons de parole ou non. Les auteurs

montrent que l’interaction engendre davantage de sons de parole. Ainsi, l’environnement dans lequel

se trouve le bébé semble influencer directement sur sa production (voir aussi Bloom, 1988; Kuhl et

Meltzoff, 1982; Masataka, 1993). Pour expliquer cet effet, Bloom (1988) suppose que l’interaction

donne l’opportunité au bébé d’imiter les productions de l’adulte.

Cette hypothèse est renforcée par le fait que les bébés sont capables d’imitation dès les premiers

jours de vie (Field et al., 1983; Meltzoff et Moore, 1977; Vinter, 1986). Plus radicalement, il est

sup-posé que le bébé acquiert ses capacités de production en partie grâce à l’imitation, ce que Kuhl et

Meltzoff (1996) résument sous le nom « d’apprentissage vocal » (vocal learning). Comme les résultats

de Mampe et al. (2009), cette imitation semble concerner en grande partie les traits prosodiques

(Kes-sen et al., 1979; Papoušek et Papoušek, 1981). Cependant, Kuhl et Meltzoff (1996) trouvent également

une imitation pour les catégories phonétiques. Ils observent notamment que les bébés âgés entre 3 et 5

mois, écoutant une voyelle particulière parmi [i, a, u], produisent davantage de vocalisations

ressem-blant à cette voyelle.

Malgré tout, cette hypothèse imitative n’est pas retenue par tous. Avec des études similaires à

celle de Bloom et al. (1987) sur des bébés de 7 à 10 mois capables de babiller, Goldstein et collègues

observent que le babillage des bébés n’est pas une imitation de ce que produisent les adultes, même si

les productions augmentent significativement avec l’interaction sociale (Goldstein et al., 2003;

Gold-stein et Schwade, 2008). Les auteurs supposent plutôt que les interactions permettent aux bébés de

découvrir les régularités statistiques de la production des adultes, ce qui leur permet de guider le

développement de leur propre production.

Si on suit cette seconde hypothèse, la statistique de l’environnement et l’interaction sociale

per-mettraient de guider également la production tout comme elles guident la perception. Ainsi les deux

processus, malgré leurs différences, se serviraient de mécanismes similaires pour leur apprentissage.

Nous pouvons donc supposer en conséquence que le lien phonétique entre perception et production

pourrait apparaître dès le plus jeune âge. C’est effectivement ce que semblent montrer au moins deux

études sur le sujet (voir aussi Munson et al., 2011; Polka et al., 2007, pour des revues).

et gallois. Dans une première phase, ils enregistrent deux fois par mois des bébés anglais et gallois

âgés entre 10,5 et 12 mois durant des sessions d’une demi-heure où les bébés interagissent avec leur

mère. À 12 mois et demi, ils les testent sur leur capacité à discriminer les contrastes [t] et [s] pour

les bébés anglais et [b] et [g] pour les bébés gallois en utilisant la méthode HT. Les auteurs observent

que les temps d’écoute de ces contrastes sont corrélés inversement à la capacité de production de

ces mêmes contrastes. Dit autrement, les bébés écoutent les contrastes plus longtemps lorsqu’ils les

produisent le moins souvent. Cette corrélation confirme l’existence d’un lien entre les représentations

en production et en perception.

Dans une expérimentation similaire, DePaolis et al. (2011) testent la production et la perception

de bébés anglais âgés entre 9 et 11 mois. Dans une première phase, ils enregistrent des bébés dans

plusieurs périodes d’une demi-heure lors d’interaction avec leurs parents. De ces enregistrements, ils

analysent les consonnes produites et, pour chaque bébé, ils les séparent en trois groupes :

fréquem-ment produites (groupe « own »), peu produites par le bébé mais fréquemfréquem-ment produites à cet âge

pour d’autres bébés (groupe « other »), et rarement produites (groupe « rare »). Dans une tâche de

perception, en utilisant la méthode HT, ils comparent les enfants disposant d’une unique consonne

« own » de ceux en disposant de plusieurs. Ils observent une tendance à ce que les enfants ayant une

unique consonne « own » écoutent plus longtemps les contrastes « own ». Mais, de manière

significa-tive, les enfants disposant de plusieurs consonnes « own » préfèrent écouter les contrastes « other ».

Aucune préférence n’est montrée pour les contrastes « rare ». Ils en déduisent que la production a une

influence sur les préférences perceptives.

En résumé, bien que les mécanismes exacts fassent encore débat, la production paraît, elle aussi,

influencée par l’environnement. Cela laisse supposer que les processus de perception et production

phonétiques sont liés, ce que semblent confirmer les données expérimentales.

3.2.2.3 Conclusion

Pour synthétiser, les deux processus de perception et de production semblent tous deux se focaliser

sur les stimuli de l’environnement. Le processus de perception paraît essentiellement basé sur un

apprentissage statistique des stimuli de l’environnement. De son côté, le processus de production,

bien que plus tardif, semble être influencé par l’environnement, à travers l’utilisation de l’interaction

sociale.

Nous nous servons de ces observations dans nos futures modélisations, notamment pour réaliser

le développement auditif et moteur de notre modèle.

Dans le document Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie (Page 45-50)