7.5 Discussion générale
8.1.3 Synthèse des connaissances sur l’apprentissage
Nous avons passé en revue notre modèle sous l’angle de la phonétique à travers nos trois aspects
privilégiés. Une des facettes de cette thèse est notre intérêt pour le développement et l’apprentissage,
dont les choix et les conséquences se retrouvent dans l’ensemble de nos études. Pour cette raison, il
nous semble important de discuter de notre manière de l’implémenter ainsi que des limites et
perspec-tives possibles pour l’améliorer. La discussion est menée autour de trois aspects : les étapes choisies,
les scénarios établis et l’utilisation du maître.
8.1.3.1 La dynamique d’apprentissage
Dans toutes nos études, l’apprentissage du modèle COSMO nécessite trois phases : un
apprentis-sage sensoriel pendant lequel l’agent apprend à relier ses représentations sensorielles à ses catégories
phonétiques, un apprentissage sensorimoteur durant lequel l’agent à relier ses représentations
sen-sorielles à ses représentations motrices et un apprentissage moteur durant lequel l’agent apprend à
relier ses représentations motrices aux catégories phonétiques. En revanche, la séquence diffère selon
les études. Dans la première étude du chapitre 4, avec COSMO 1D, nous supposons que les trois
phases s’effectuent en parallèle. Dans les deux études du chapitre 5, ainsi que dans COSMO SylPhon,
nous considérons que l’apprentissage sensorimoteur et l’apprentissage moteur s’effectuent l’un après
l’autre et tous deux en parallèle avec l’apprentissage sensoriel.
Néanmoins, du fait que l’apprentissage sensoriel et l’apprentissage sensorimoteur soient
indé-pendants l’un de l’autre, ils pourraient, dans chaque étude, être considérés en séquence plutôt qu’en
parallèle sans que cela n’ait d’effet sur l’apprentissage de l’agent. Ce comportement semble plus en
accord avec les données de la littérature. En effet, comme nous l’avions remarqué dans le chapitre 2
et dans les calendriers développementaux (voir par exemple Kuhl, 2004), le bébé semble capable de
percevoir du son de parole avant de pouvoir en produire. Cela suggèrerait donc que l’apprentissage
sensoriel commence avant l’apprentissage sensorimoteur et moteur. Cependant, une autre hypothèse
pourrait également expliquer ces observations. Dans nos études, nous remarquons que l’apprentissage
sensoriel converge rapidement tandis que les apprentissages sensorimoteur et moteur sont beaucoup
plus lents. Ainsi, même en supposant un apprentissage parallèle, nous prédisons que l’agent apprend
à percevoir, même si ce n’est qu’une perception auditive, avant de savoir produire du son. Il serait
donc possible d’imaginer que chez le bébé, les deux apprentissages commencent également en même
temps mais que leurs dynamiques soient différentes.
D’autres facteurs contribuent au décalage entre perception et action : le démarrage de
l’apprentis-sage sensoriel dès les dernières étapes de la vie prénatale ou la difficulté spécifique de la coordination
source/conduit vocal qui retarde le démarrage du babillage canonique. Par ailleurs, la notion de
ca-lendrier développemental génétiquement programmé (Werker et Hensch, 2015) fournit un support
naturel à l’hypothèse d’un décalage entre apprentissage sensoriel et sensorimoteur. Néanmoins, notre
étude développementale dans COSMO 1D ouvre une piste de réflexion intéressante sur la possibilité,
qu’en partie, les décalages de calendrier soient la simple conséquence de différences de complexité
dans les processus d’apprentissage.
La relation entre l’apprentissage sensorimoteur et l’apprentissage moteur reste beaucoup plus
floue notamment parce qu’il est difficile de savoir à quel moment le bébé apprend réellement à relier
ses représentations motrices aux catégories phonétiques. D’un côté, comme l’apprentissage moteur
est, en partie, basé sur un apprentissage sensorimoteur, il est plus simple, dans notre modèle, de
consi-dérer que ces deux phases s’effectuent séquentiellement. Cela signifierait que le bébé ne commence à
relier ses représentations motrices à ses catégories phonétiques qu’une fois qu’il a appris à relier ses
représentations motrices à ses représentations sensorielles.
Néanmoins, dans COSMO-1D, nous montrons également que les deux apprentissages peuvent
s’effectuer en parallèle, sans que cela n’ait de réelle conséquence sur l’apprentissage final. Là encore,
de par leur différence de dynamique, même si les deux apprentissages commencent en même temps,
cela n’empêche pas le bébé d’acquérir d’abord la relation entre ses représentations motrices et ses
représentations sensorielles et de ne réussir que plus tard à relier ses représentations motrices à ses
catégories phonétiques. Bien que les schémas développementaux proposent généralement un décalage
entre apprentissage sensorimoteur plus précoce et apprentissage moteur plus tardif (Kuhl, 2004), ces
suppositions demandent de plus amples investigations.
8.1.3.2 Les scénarios d’apprentissage
Outre les trois phases d’apprentissage, trois scénarios d’apprentissage se retrouvent dans nos
études : un apprentissage supervisé, un apprentissage non supervisé et un apprentissage par
accom-modation. Nous allons détailler chacun d’eux.
L’apprentissage supervisé est utilisé dans les implémentations de COSMO 1D et COSMO-V lors
de l’apprentissage sensoriel. Durant cet apprentissage, le maître fournit le son et la catégorie
pho-nétique à l’agent et celui-ci met directement à jour les paramètres de son répertoire auditif avec ces
deux informations. Nous avons fait ce choix en nous basant principalement sur les précédent travaux
effectués sur le modèle COSMO (voir par exemple Laurent, 2014; Moulin-Frier et al., 2012). Cet
ap-prentissage a le mérite d’être simple à mettre en place, ce qui, du point de vue computationnel, n’est
pas négligeable, mais qui, du point de vue cognitif, n’est pas réellement un argument. Nous savons
que le bébé est influencé par les signaux sensoriels de sa langue, nous pouvons donc supposer qu’il
perçoit effectivement le signal sensoriel provenant de l’extérieur et s’en serve pour mettre à jour ses
paramètres. Nous avons modélisé cela à l’aide d’un maître mais tout signal de l’environnement ayant
les propriétés de sa langue aurait pu faire l’affaire. Néanmoins, le fait qu’il soit capable
d’interpré-ter directement la catégorie phonétique correspondant à ce signal pose davantage de questions. Nous
avons deux hypothèses : soit le maître est capable de fournir à l’agent une information sur la catégorie
en question, soit l’agent possède déjà des connaissances innées sur ses catégories phonétiques et est
directement capable de les associer à des sons.
Étudions le premier cas en supposant que le maître réussisse à informer l’agent de la catégorie
phonétique correspondant au signal sensoriel. Une des hypothèses retenues pour expliquer ce
com-portement est la deixis (voir Laurent, 2014; Moulin-Frier, 2011, pour plus de détails). Cela suppose
que le bébé perçoit chaque son en relation avec un élément extérieur et que le bébé se sert de cet
élément extérieur pour labeliser le son entrant. Par exemple, imaginons une situation dans laquelle
le bébé est capable de reconnaître un biberon et que dans ce mot, il ne retienne que la syllabe [bi].
Ainsi, à chaque fois que le maître prononce le mot biberon en présence du biberon, le bébé peut
as-socier le son « bi » à la syllabe [bi]. Cet exemple, et cette vision en général, présentent néanmoins
de nombreuses limites : si deux éléments différents sont identifiés par une même syllabe, disons [bi],
le bébé risque d’apprendre deux catégories phonétiques pour la même syllabe [bi]. De même, il est
difficilement justifiable de supposer que le bébé identifie chaque élément de son environnement par
une catégorie phonétique et non par un mot. En revanche, du fait que cette situation soit en accord
avec la littérature en ce qui concerne les mots, il peut être supposé que la catégorie phonétique puisse
être déduite du mot à partir d’un traitement lexical mais que ce traitement serait réalisé implicitement
dans le modèle COSMO.
Passons au second cas pour lequel le bébé possèderait déjà des connaissances sur ses catégories
phonétiques. Cette hypothèse est souvent exploitée par les phonologues mais assez peu par les
pho-néticiens. Par ailleurs, même s’il est vrai que les bébés possèdent une perception catégorielle de façon
précoce, celle-ci semble davantage provenir d’un mécanisme général auditif que de mécanismes
lin-guistiques (Vihman, 2013, voir par exemple). Il n’y a donc aucune preuve actuelle que le bébé possède
déjà une connaissance de ses catégories phonétiques à la naissance et encore moins qu’il sache les
re-connaître dans un signal sensoriel. En effet, la perception catégorielle montre que le bébé sait mieux
discriminer les sons dans certaines régions de l’espace acoustique mais cela n’implique pas forcément
qu’il sache les catégoriser en conséquence.
Ces deux hypothèses mises à part, les chercheurs semblent supposer, comme nous l’avons vu
dans le chapitre 2, que les catégories phonétiques s’obtiennent, en partie, par un apprentissage
statis-tique non supervisé. C’est, entre autres, pour cette raison que nous avons testé dans COSMO SylPhon
un apprentissage non supervisé dans lequel l’agent n’a accès qu’au signal sensoriel du maître. Dans
celui-ci, le bébé apprend à relier ses représentations sensorielles aux catégories phonétiques
seule-ment à partir du son qu’il perçoit. Cela correspond à l’apprentisssage réalisé dans plusieurs modèles
d’apprentissage sensoriel évoqués au chapitre 3. Une perspective pour cet apprentissage phonétique
serait la prise en compte des mots. En effet, à partir d’un certain âge, quand le bébé commence à
apprendre les mots, ceux-ci viennent influencer la relation entre les représentations auditives et les
catégories phonétiques (Feldman et al., 2013b). Dans cette thèse, nous avons explicitement choisi de
ne pas prendre en compte les mots. Une perspective sur cette thématique est cependant proposée dans
la prochaine section.
Le dernier apprentissage est l’apprentissage par accommodation que nous utilisons pour
l’appren-tissage sensorimoteur et l’apprenl’appren-tissage moteur. L’accommodation consiste en un apprenl’appren-tissage
sta-tistique basé sur l’imitation des signaux reçus par l’agent. Cet apprentissage semble crédible puisque
nous savons d’une part que le bébé est capable d’imiter des sons et que d’autre part ce qu’il produit est
influencé par les sons de sa langue. Ceci laisse supposer, qu’en effet, il semble capable d’apprendre
à produire en se basant sur ce qu’il perçoit. Néanmoins, comme le développement sensorimoteur est
difficile à analyser, une évaluation précise de notre hypothèse d’accommodation à partir d’une « vérité
de terrain » semble, actuellement, hors de portée.
Une des phases d’apprentissage manquantes est l’apprentissage du contrôle du conduit vocal.
Avant que le bébé ne produise des sons correspondant à du son perçu ou à des catégories phonétiques,
le développement semble supposer qu’il apprend au préalable à contrôler son conduit vocal. C’est
d’abord ce qu’il semble se passer lors de la phase de « cooing », lors de laquelle il produit des
proto-voyelles. Après cette première phase, le bébé apprend à produire réellement des voyelles. De la
même manière, avant la phase de babillage, le bébé apprend à contrôler son conduit vocal et produit
un babillage marginal, dans lequel les séquences d’ouverture et fermeture ne respectent pas encore
les caractéristiques temporelles des syllabes comme dans le babillage canonique. Cependant, le fait
que cette phase d’apprentissage manque dans COSMO est principalement dû au fait que nous ne
modélisons pas les effecteurs du bébé et que nous ne faisons pas la différence entre geste prédit et
geste produit. Ainsi, les prédictions de notre agent COSMO apprenant correspondent directement à
ce qu’il produit, comme s’il maîtrisait déjà parfaitement son conduit vocal. Cela mériterait sans aucun
doute d’être amélioré.
Par ailleurs, l’apprentissage par accommodation pourrait être aussi amélioré sur sa composante
sociale. En effet, même si le bébé semble effectivement baser son apprentissage sur ce qu’il perçoit,
le retour de son environnement semble également important. Il a, par exemple, été montré par
Gold-smith et Xanthos (2009), qu’un bébé vocalisait mieux et davantage s’il avait un retour direct de sa mère
après ses vocalisations. Dans nos implémentations, cette composante a été assez peu développée. Il
sera donc essentiel, dans une phase future de cette recherche, de travailler sur des scénarios
d’in-teraction plus réalistes, en s’inspirant des nombreuses données et observations sur les conditions de
développement du langage et le rôle des interactions sociales dans les processus d’apprentissage (voir,
par exemple, Kuhl, 2007).
8.1.3.3 Le maître
Un ou plusieurs maîtres Dans chacune des implémentations du modèle COSMO, nous avons fait le
choix de n’implémenter qu’un seul maître, qui est, pour rappel, l’agent communiquant des stimuli pour
l’agent apprenant lors des différentes phases d’apprentissage. Le choix d’un maître unique facilite
non seulement l’implémentation mais aussi la comparaison des différentes simulations et donc des
différents agents apprenants.
Cependant, à part dans de rares cas, il semble inenvisageable que le bébé apprenne ses catégories
phonétique à partir des signaux d’une seule personne. Il serait donc judicieux de proposer dans des
prochaines versions de COSMO, un apprentissage multi-locuteur. Cela nécessite néanmoins des
ré-flexions préalables sur les différences d’implémentation concernant chaque maître, sur la proportion
de stimuli fournis par chacun, et sur les différences possibles du scénario d’apprentissage.
Une question serait de savoir si en introduisant plusieurs maîtres, la variabilité des catégories
phonétiques augmente de la même manière que s’il existait une sorte de « méta maître » possédant une
grande variabilité dans ses signaux, ou si la présence de plusieurs maîtres nécessite plutôt d’apprendre
des modèles différents ainsi que des stratégies d’adaptation propres à chaque maître comme dans les
modèles de Johnson (1997) ou Kleinschmidt et Jaeger (2015).
Par ailleurs, la présence de plusieurs maîtres pourrait faciliter la comparaison et l’influence des
différents scénarios d’apprentissage. Nous pourrions, par exemple, imaginer deux maîtres : l’un passif,
ne faisant que communiquer de façon indirecte à l’agent apprenant en lui fournissant des stimuli sans
retour particulier, et un maître actif communiquant avec le bébé de façon directe et réalisant des retours
sur ses productions.
La nécessité du maître Nous venons d’évoquer le maître en supposant pour de futures
simula-tions qu’il ne soit plus unique. Nous pouvons néanmoins remettre en question sa nécessité durant
l’apprentissage. En effet, dans toutes les implémentations du modèle COSMO, nous supposons que
le maître intervient dans chaque phase d’apprentissage et à chaque itération de l’apprentissage mais
cette hypothèse est discutable.
Du fait que le bébé semble apprendre par apprentissage statistique à relier ses catégories
phoné-tiques à ses représentations auditives, il semble effectivement important que le bébé ait connaissance
des signaux de l’environnement, et donc ait besoin d’un tuteur, pour effectuer son développement
au-ditif. L’implémentation d’un maître semble donc importante pour cette phase d’apprentissage. Durant
le développement sensorimoteur et moteur le bébé semble vocaliser et babiller dans sa langue
ma-ternelle. Cependant, il faut se rappeler que l’étape de vocalisation, tout comme l’étape de babillage,
sont précédées d’une phase de pré-vocalisation et pré-babillage. Si les étapes finales semblent être
influencées par l’environnement, les étapes préalables, davantage exploratoires, peuvent être réalisées
de façon indépendante de l’environnement.
Dès lors, nous pourrions imaginer dans COSMO un apprentissage sensorimoteur et un
apprentis-sage moteur qui se réalise de façon autonome dans laquelle l’agent apprend à contrôler son conduit
vocal. Puis, une fois que l’agent a exploré de façon satisfaisante les possibilités de son conduit vocal,
il tenterait de reproduire ce qu’il entend. Cette étape d’exploration sensorimotrice n’est pas novatrice
et a déjà été implémentée dans plusieurs modèles comme nous l’avons vu dans le chapitre 3, depuis
les premiers modèles dans les années 90 (par exemple Bailly, 1997; Guenther, 1995), jusqu’aux
si-mulations récentes dans le cadre de la robotique cognitive (par exemple Oudeyer et al., 2010). Ces
derniers développent notamment un mécanisme d’exploration des gestes moteurs en se basant sur le
principe de curiosité.
Par ailleurs, les deux types d’apprentissage imaginés, l’un d’exploration autonome et l’autre
d’imi-tation des stimuli ne sont pas forcément contradictoires. Il est possible d’envisager que ces deux
mé-canismes se réalisent en parallèle. Si cette hypothèse s’avère crédible, il faudrait réfléchir à la manière
d’implémenter ce parallélisme dans COSMO. Le principe d’accommodation s’en rapproche mais
né-cessiterait en plus un mécanisme de sélection auto-centré. Dans tous les cas, ces perspectives
s’appa-rentent à la réflexion plus générale sur les rôles respectifs de l’environnement et de l’apprentissage
personnel dans l’acquisition des catégories phonétiques.
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 194-199)