3.2 Comment se développent les invariants des unités distinctives ?
3.2.1 Les étapes du développement : différences entre apprentissage des repré-
Si les représentations sensorielles et motrices semblent être toutes deux utilisées pour caractériser
les unités phonétiques, leur développement ne semble pas se faire de la même manière. Les
représen-tations sensorielles, que nous analysons principalement à travers l’apprentissage perceptif, semblent
être précoces et universelles pendant les premiers mois puis se focalisent sur les unités de la langue
native du bébé. À l’opposé, les représentations motrices, que nous analysons principalement à travers
l’apprentissage de la production, semble s’établir petit à petit en suivant différentes phases dont les
deux plus connues sont les vocalisations et le babillage.
3.2.1.1 Apprentissage en perception
Dès les premiers mois, le bébé présente les signes de ce qui est nommé une perception
catégo-rielle (voir, par exemple, Jusczyk, 1997; Vihman, 2013, pour des revues), c’est-à-dire qu’il discrimine
très bien deux sons faisant partie de deux catégories phonétiques différentes mais difficilement deux
sons appartenant à la même catégorie phonétique. Une expérimentation pionnière à ce sujet est celle
d’Eimas et al. (1971) sur les bébés de 1 mois qui montre que les bébés sont capables de discriminer
de manière catégorielle le [ba] du [pa]. Pour cela, il se sert de la méthode High-Amplitude Sucking
(HAS). Utilisée surtout pour les nourrissons entre 0 et 4 mois, cette technique est basée sur le fait que
la vitesse de succion d’une tétine fournie au nourrisson en début d’expérience s’accélère quand un
changement est détecté par le bébé. Pour les expérimentations en phonétique, elle est particulièrement
utilisée pour tester si les bébés sont capables de distinguer deux unités distinctives ou des groupes
d’unités distinctives. Durant l’expérimentation, un ensemble de stimuli similaires (ici de type [ba]) est
présenté au bébé jusqu’à ce que le taux de succion se stabilise ou descende en dessous d’un certain
seuil (effet d’habituation). Ensuite, soit le stimulus continue à être diffusé, soit un nouveau stimulus
apparaît (soit [pa], soit un [ba] acoustiquement différent, mais avec des écarts acoustiques entre ces
deux sons identiques dans les deux cas). L’expérimentation consiste donc à comparer la vitesse de
suc-cion du bébé lorsque le second stimulus correspond à la même unité à celle lorsque le second stimulus
correspond à une unité différente. L’expérimentation est concluante si la vitesse de succion augmente
significativement face au nouveau stimulus. Dans leur étude, Eimas et al. (1971) observent une
aug-mentation entre le [ba] et le [pa], mais pas entre les deux [ba], bien qu’ils soient acoustiquement
différents, ce que les auteurs interprètent comme de la perception catégorielle. Cette expérimentation
est par la suite reproduite et confirmée sur d’autres stimuli, témoignant de la robustesse du phénomène
(Eimas, 1975; Eimas et Miller, 1980; Hillenbrand et al., 1979; Jusczyk et al., 1977; Trehub, 1973).
Cependant, bien que cette perception catégorielle soit assez développée, certaines catégories, comme
les fricatives (par exemple, [sa] vs. [za]) sont difficilement discriminées durant les premiers mois
(Ei-lers et Minifie, 1975; Nittrouer, 2001) ou seulement dans certaines conditions (Jusczyk et al., 1979;
Levitt et al., 1988).
En s’intéressant aux sons non-natifs, Trehub (1976) observe que les bébés anglais de 1 à 4 mois
sont capables de discriminer plusieurs contrastes, respectivement présents en français et tchèque, mais
pas en anglais ([pa] / [pã] et [za]-[ˇra]), contrairement à des adultes anglais, qui ne peuvent discriminer
que des contrastes de leur langue, comme [li] / [ri]. De la même manière, Kuhl et al. (2006) remarquent
que le contraste [r] / [l] est également discriminé par les natifs japonais de 6 à 8 mois, alors qu’il est
mal discriminé par les japonais adultes, car il ne fait pas partie de leur système phonologique. Par
ailleurs, dès les premiers mois, il apparaît des différences entre les bébés de langue native différente.
Prenons l’exemple du VOT entre les phonèmes [b, p, p
h]. Avant 6 mois, les données font état de
deux frontières catégorielles, une pour séparer chaque contraste (Lasky et al., 1975). Or, certaines
langues ne présentent pas tous les contrastes et ne conservent qu’une seule frontière catégorielle : le
français ou l’espagnol ont, par exemple, une unique frontière centrale située entre les deux frontières
initiales tandis que l’anglais ne possède qu’une des frontières initiales parmi les deux (voir Fig .3.4).
En conséquence, vers 6-8 mois, les bébés anglais ne discriminent pas le [ba] du [pa] alors que les
bébés espagnols, au même âge, discriminent les trois contrastes (Eilers et al., 1979).
FIGURE3.4 – Illustration des frontières entre les contrastes [b, p, p
h] selon le continuum VOT. Adapté
de Serniclaes et Sprenger-Charolles (2003)
Il semble donc exister des différences d’apprentissage selon les langues. L’expérimentation de
Werker et Tees (1984) va même plus loin. Remarquant qu’à 6-8 mois les bébés anglais sont encore
capables de discriminer les contrastes non-natifs sur le lieu d’articulation des consonnes (Werker et al.,
1981), ils étudient l’évolution de la perception de ces contrastes pour trois groupes de bébés anglais :
6-8 mois, 8-10 mois et 10-12 mois. Ils remarquent qu’à partir de 10-12 mois, les bébés semblent
perdre totalement leur capacité à discriminer les lieux d’articulation des consonnes non-natives. C’est
ce qu’on nomme le perceptual narrowing.
La technique pour tester la perception des bébés de cette tranche d’âge est nommée visually
rein-forced Head Turn technique (HT). Elle est basée sur le fait que l’attention du bébé se focalise plus
longtemps vers les nouveaux stimuli. Le principe consiste à placer le bébé au centre d’une pièce
dans laquelle des sons peuvent être présentés de deux côtés. Un premier son est joué d’un côté, puis,
lorsque le bébé se désintéresse du son, un second son est présenté de l’autre, renforcé par l’animation
d’un jouet. L’idée est de comparer l’attention du bébé entre un second son similaire au premier et un
second son différent. Quand le bébé tourne sa tête significativement plus longtemps vers un nouveau
stimulus que vers le stimulus actuel, on dit alors qu’il est capable de distinguer les deux sons (voir,
par exemple, Nelson et al., 1995; Werker et al., 1997, pour plus de détails sur cette technique).
an-glais [ba]-[da], les contrastes Salish [`ki]-[`qi] et les contrastes Hindous [t
˙a]-[ta]. Ils montrent d’abord
qu’entre 6-8 mois les bébés anglais savent discriminer tous les contrastes. Ensuite, entre 8-10 mois,
cette capacité disparait chez certains bébés pour les contrastes [`ki]-[`qi] et [t
˙a]-[ta] et elle disparait
totalement, pour ces deux contrastes, chez les bébés de 10-12 mois. En comparaison, ils montrent que
les bébés Salish et Hindous de 10-12 mois conservent bien les contrastes de leur langue respective.
Di-verses expérimentations confirment ce résultat (Bosch et Sebastián-Gallés, 2003; Conboy et al., 2005;
Kuhl et al., 2003, voir aussi Maurer et Werker, 2014 pour une revue). Néanmoins, cette observation ne
concerne pas tous les contrastes non-natifs, puisque la perception de certains contrastes est conservée
même après 1 an (par exemple les clics Zulu, voir Best et al., 1995). Cependant, il s’agit des contrastes
non-natifs généralement aussi perçus par les adultes.
En plus de la perte de la perception des contrastes non natifs, les bébés améliorent leur perception
des contrastes natifs. Par exemple, Kuhl et al. (1997) étudient la perception des contrastes [l] et [r]
chez des bébés américains et japonais de 6-8 mois et de 10-12 mois en utilisant la technique HT. Ils
observent qu’à 6-8 mois, les bébés discriminent les contrastes (environ 64 % de réponses correctes).
À 10-12 mois, les bébés japonais, pour qui ce contraste n’est pas natif, discriminent moins bien ces
contrastes (environ 60 %). À l’inverse, les bébés américains améliorent leur perception et discriminent
mieux ces deux contrastes (environ 74 %). Cette expérimentation est reproduite avec les mêmes
résul-tats (Kuhl et al., 2006) et un résultat similaire est obtenu avec des contrastes mandarins avec les bébés
chinois natifs de cette langue (Tsao et al., 2000).
En résumé, l’apprentissage de la perception passe par deux étapes principales : d’abord le bébé
semble posséder des capacités précoces universelles puisqu’il paraît capable, dès les premiers mois,
de discriminer la plupart des contrastes, aussi bien ceux de sa langue maternelle que ceux d’autres
langues. Par la suite, il focalise sa perception sur les contrastes de sa langue et perd la capacité de
discriminer les contrastes non-natifs (voir de Boysson-Bardies et Hallé, 2004, pour une revue). Nous
n’avons montré que les études comportementales mais les études de neuroimagerie réalisent des
ob-servations similaires (voir Conboy et al., 2008a; Kuhl, 2010, pour des revues).
3.2.1.2 Production : l’importance du babillage
Contrairement à la perception pour laquelle le bébé semble avoir des capacités précoces, la
pro-duction n’est pas développée à la naissance. Le bébé est capable d’utiliser sa voix mais il ne maîtrise
pas ses muscles lui permettant d’articuler des sons de parole. Ces capacités se développent au cours
du temps. Nous retraçons, dans cette section, les principales étapes du développement phonétique en
production. Il existe quelques différences parmi les théories s’intéressant à ce développement
phoné-tique (voir Fig. 3.5, voir aussi Mowrer, 1980, pour une revue). Néanmoins, on retrouve globalement
les deux phases principales sur lesquelles nous nous centrons : les vocalisations et le babillage.
Avant 2 mois, le bébé se sert principalement de sa voix pour crier, pleurer et de manière plus
générale exprimer ses ressentis par des petits sons mais sa production n’est pas réellement contrôlée.
Dans sa théorie, Oller (2000) les nomme des sons végétatifs et les distingue des sons de parole dans
le développement qu’il nomme protophones. Pour lui, ces derniers sont spécifiques aux humains alors
que les sons végétatifs peuvent être produits par d’autres espèces. Durant cette période, les premières
FIGURE3.5 – Comparaison entre les théories de Oller (1980) (colonne marquée « O »), Stark (1980)
(colonne marquée « S ») et Roug et al. (1989) (colonne marquée « R »). Repris de Vihman (2013),
Fig 4.1, adapté de Roug et al. (1989)
vocalisations apparaissent, elles sont nommées « quasi-voyelles ». Elles possèdent les caractéristiques
acoustiques des sons de paroles et spécialement celles des voyelles (Hollien, 1974) mais pas les
carac-téristiques motrices. En effet, elles sont produites avec le conduit vocal au repos, c’est-à-dire avec la
bouche quasiment fermée, sans utilisation des articulateurs (les lèvres, la langue, etc.), ce qui diffère
de la production des voyelles chez l’adulte (Oller et Eilers, 1988).
Entre 2 et 4 mois, d’autres vocalisations apparaissent, plus diversifiées, souvent en réponse à un
interlocuteur. Elles sont parfois accompagnées d’une fermeture vélaire mal contrôlée, ressemblant à
une fricative, ce qui donne lieu à ce qu’on nomme le « roucoulement » (« cooing » (Stark, 1980)
ou « goo » (Oller, 1980) en anglais). Bien que très primaire, cette fermeture correspond aux origines
de l’articulation. Ces productions sont d’abord réalisées de façon isolée puis, petit à petit, en série,
séparées par un coup de glotte (« glottal stage » de Roug et al., 1989)).
Entre 4 et 7 mois, le bébé commence à mieux contrôler ses organes et muscles articulatoires. De
la même manière, il contrôle également mieux certains paramètres acoustiques relatifs à la prosodie
(hauteur, vitesse, intensité) et relatifs aux caractéristiques consonantiques comme les bruits de friction,
les murmures nasaux ou les consonnes roulées. À ce stade, les voyelles sont produites comme celles
des adultes, sans en avoir encore bien sûr la diversité et la maîtrise réelle.
À cette même période, commence la production d’éléments ressemblant à des syllabes. Elles
cor-respondent à un mouvement partant d’une fermeture du conduit vocal (ressemblant à une consonne)
et finissant vers une voyelle bien formée. Cette séquence ne suit cependant pas le rythme des syllabes
adultes : il manque la transition rapide entre la consonne et la voyelle (Oller, 2000). Ce sont les
pré-mices d’une étape primordiale dans le développement de la production : le babillage. C’est pourquoi,
cette étape est parfois nommée « babillage marginal ».
Le babillage en tant que tel apparait aux alentours de 7 mois. Il s’agit de la phase durant laquelle
le bébé commence réellement à produire des gestes moteurs ressemblant à des syllabes ou qui en
possèdent au moins les principales propriétés acoustiques en termes de durée et d’enchaînement. La
proto-syllabe produite est une syllabe Consonne+Voyelle (CV), composée d’une consonne possédant
une complète ou quasi-complète fermeture supraglottale et d’une transition rythmée comme celle d’un
adulte vers une voyelle bien formée. L’étape de babillage est souvent composée de deux phases : le
babillage canonique commençant au début du babillage et qui se caractérise par la répétition prolongée
de mêmes proto-syllabes (par exemple, « babababa... ») et le babillage diversifié (« variegated ») ne
commençant généralement pas avant 10-11 mois qui se caractérise par la production de proto-syllabes
plus variées (par exemple « digadu... ») (Fagan, 2009; Oller, 1980; Stark, 1980).
Cette distinction entre babillage canonique et diversifié n’est néanmoins pas suivie par tous. Elbers
(1982) voit davantage le babillage comme un processus continu d’exploration dans lequel le bébé
construit peu à peu ses représentations phonétiques menant à une variation phonétique de plus en
plus importante entre 6 et 12 mois. Ceci semble confirmé par diverses études comparant le babillage
canonique et diversifié (Mitchell et Kent, 1990; Roug et al., 1989; Smith et al., 1989). À ce titre, Roug
et al. (1989) montrent que les productions du babillage diversifié, bien que peu fréquentes au départ,
apparaissent dès le début du babillage et augmentent de façon conséquente en fin de babillage.
S’il s’agit d’un processus d’exploration de plus en plus complexe, il peut être vu davantage comme
un processus sensorimoteur général qu’un phénomène spécifique au développement de la parole et de
la phonétique (Fagan, 2009; Kent, 1984). À ce titre, Thelen (1981) remarque qu’à un âge similaire
les mouvements rythmiques et répétitifs se retrouvent pour d’autres parties du corps (les membres,
les doigts, etc.). Des études complémentaires observent également un lien important entre le babillage
et ces autres mouvements rythmiques (Ejiri, 1998; Ejiri et Masataka, 2001; Iverson et Fagan, 2004;
Iverson et al., 2007; Iverson et Thelen, 1999). De la même manière, d’autres auteurs remarquent que
les mouvements cycliques de la mâchoire apparaissent au début sans phonation (Meier et al., 1997;
Roug et al., 1989).
D’un point de vue similaire, Davis et MacNeilage (1995) proposent l’hypothèse « Frame then
Content » (F/C). Une des hypothèses de cette théorie est que le babillage est le résultat d’une
oscilla-tion plutôt que la combinaison d’une consonne et d’une voyelle indépendante. Ils supposent ainsi que
les consonnes et voyelles effectuées lors du babillage sont articulatoirement liées, ce qui est
effective-ment vérifié. En effet, les consonnes labiales sont plus souvent combinées avec les voyelles centrales
(par exemple, [ba]), dans un geste qui n’impliquerait, pour les auteurs, qu’un pur geste de mâchoire,
(« pure frames »). De même, les consonnes alvéolaires sont plus souvent combinées avec les voyelles
antérieures (par exemple, [di]) dans un geste d’ouverture qui se superposerait à une avancée globale
de la langue (« fronted frames ») et les consonnes vélaires avec les voyelles postérieures (« backed
frames », par exemple [gu]) (voir aussi MacNeilage, 1998; MacNeilage et al., 1997).
com-mence, à travers la vocalisation, à produire des voyelles de mieux en mieux formées. Puis, guidé par
un processus rythmique, il apprend à travers le babillage à associer voyelles et consonnes afin de
produire des syllabes de plus en plus évoluées.
3.2.1.3 Conclusion
Pour synthétiser, nous obtenons deux comportements développementaux bien différents lors de
l’acquisition de la perception et de la production. Dès les premiers mois, alors que la perception permet
de discriminer un grand nombre de contrastes phonétiques, la production ne permet que d’effectuer
des vocalisations. Par la suite, cette dernière se développe à travers le babillage pour finalement être
capable de produire des syllabes correctement formées. Entre temps, la perception se spécialise et
perd peu à peu ses capacités universelles pour ne se focaliser que sur les contrastes natifs.
Dans toute cette section, nous avons fait l’hypothèse que l’acquisition des représentations
audi-tives avait lieu lors du développement auditif, à l’aide de la perception, et que celle des représentations
motrices s’effectuait pendant le développement moteur, à l’aide de la production. Cependant, cela ne
signifie pas pour autant que la perception ou la production elle-même n’impliquent que des
repré-sentations respectivement auditives et motrices chez le bébé. Par exemple, il est montré que les aires
auditives et motrices sont conjointement activées durant la perception à 7 et 12 mois (Kuhl et al.,
2014). Nous avons simplement voulu mettre en avant les deux processus de développement pris
indé-pendamment.
Par ailleurs, ces différences de développement, bien qu’intrigantes, semblent avoir été assez peu
comparées. Pourtant, nous pourrions nous demander si elles ont une quelconque influence sur la
ca-ractérisation des unités phonétiques à l’âge adulte ? C’est ce que nous étudierons par la suite dans une
de nos modélisations au chapitre 4.
3.2.2 Des représentations sensorielles et motrices si différentes ? Une focalisation sur
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 40-45)