• Aucun résultat trouvé

Synthèse des connaissances sur l’apprentissage

7.5 Discussion générale

8.1.3 Synthèse des connaissances sur l’apprentissage

Nous avons passé en revue notre modèle sous l’angle de la phonétique à travers nos trois aspects

privilégiés. Une des facettes de cette thèse est notre intérêt pour le développement et l’apprentissage,

dont les choix et les conséquences se retrouvent dans l’ensemble de nos études. Pour cette raison, il

nous semble important de discuter de notre manière de l’implémenter ainsi que des limites et

perspec-tives possibles pour l’améliorer. La discussion est menée autour de trois aspects : les étapes choisies,

les scénarios établis et l’utilisation du maître.

8.1.3.1 La dynamique d’apprentissage

Dans toutes nos études, l’apprentissage du modèle COSMO nécessite trois phases : un

apprentis-sage sensoriel pendant lequel l’agent apprend à relier ses représentations sensorielles à ses catégories

phonétiques, un apprentissage sensorimoteur durant lequel l’agent à relier ses représentations

sen-sorielles à ses représentations motrices et un apprentissage moteur durant lequel l’agent apprend à

relier ses représentations motrices aux catégories phonétiques. En revanche, la séquence diffère selon

les études. Dans la première étude du chapitre 4, avec COSMO 1D, nous supposons que les trois

phases s’effectuent en parallèle. Dans les deux études du chapitre 5, ainsi que dans COSMO SylPhon,

nous considérons que l’apprentissage sensorimoteur et l’apprentissage moteur s’effectuent l’un après

l’autre et tous deux en parallèle avec l’apprentissage sensoriel.

Néanmoins, du fait que l’apprentissage sensoriel et l’apprentissage sensorimoteur soient

indé-pendants l’un de l’autre, ils pourraient, dans chaque étude, être considérés en séquence plutôt qu’en

parallèle sans que cela n’ait d’effet sur l’apprentissage de l’agent. Ce comportement semble plus en

accord avec les données de la littérature. En effet, comme nous l’avions remarqué dans le chapitre 2

et dans les calendriers développementaux (voir par exemple Kuhl, 2004), le bébé semble capable de

percevoir du son de parole avant de pouvoir en produire. Cela suggèrerait donc que l’apprentissage

sensoriel commence avant l’apprentissage sensorimoteur et moteur. Cependant, une autre hypothèse

pourrait également expliquer ces observations. Dans nos études, nous remarquons que l’apprentissage

sensoriel converge rapidement tandis que les apprentissages sensorimoteur et moteur sont beaucoup

plus lents. Ainsi, même en supposant un apprentissage parallèle, nous prédisons que l’agent apprend

à percevoir, même si ce n’est qu’une perception auditive, avant de savoir produire du son. Il serait

donc possible d’imaginer que chez le bébé, les deux apprentissages commencent également en même

temps mais que leurs dynamiques soient différentes.

D’autres facteurs contribuent au décalage entre perception et action : le démarrage de

l’apprentis-sage sensoriel dès les dernières étapes de la vie prénatale ou la difficulté spécifique de la coordination

source/conduit vocal qui retarde le démarrage du babillage canonique. Par ailleurs, la notion de

ca-lendrier développemental génétiquement programmé (Werker et Hensch, 2015) fournit un support

naturel à l’hypothèse d’un décalage entre apprentissage sensoriel et sensorimoteur. Néanmoins, notre

étude développementale dans COSMO 1D ouvre une piste de réflexion intéressante sur la possibilité,

qu’en partie, les décalages de calendrier soient la simple conséquence de différences de complexité

dans les processus d’apprentissage.

La relation entre l’apprentissage sensorimoteur et l’apprentissage moteur reste beaucoup plus

floue notamment parce qu’il est difficile de savoir à quel moment le bébé apprend réellement à relier

ses représentations motrices aux catégories phonétiques. D’un côté, comme l’apprentissage moteur

est, en partie, basé sur un apprentissage sensorimoteur, il est plus simple, dans notre modèle, de

consi-dérer que ces deux phases s’effectuent séquentiellement. Cela signifierait que le bébé ne commence à

relier ses représentations motrices à ses catégories phonétiques qu’une fois qu’il a appris à relier ses

représentations motrices à ses représentations sensorielles.

Néanmoins, dans COSMO-1D, nous montrons également que les deux apprentissages peuvent

s’effectuer en parallèle, sans que cela n’ait de réelle conséquence sur l’apprentissage final. Là encore,

de par leur différence de dynamique, même si les deux apprentissages commencent en même temps,

cela n’empêche pas le bébé d’acquérir d’abord la relation entre ses représentations motrices et ses

représentations sensorielles et de ne réussir que plus tard à relier ses représentations motrices à ses

catégories phonétiques. Bien que les schémas développementaux proposent généralement un décalage

entre apprentissage sensorimoteur plus précoce et apprentissage moteur plus tardif (Kuhl, 2004), ces

suppositions demandent de plus amples investigations.

8.1.3.2 Les scénarios d’apprentissage

Outre les trois phases d’apprentissage, trois scénarios d’apprentissage se retrouvent dans nos

études : un apprentissage supervisé, un apprentissage non supervisé et un apprentissage par

accom-modation. Nous allons détailler chacun d’eux.

L’apprentissage supervisé est utilisé dans les implémentations de COSMO 1D et COSMO-V lors

de l’apprentissage sensoriel. Durant cet apprentissage, le maître fournit le son et la catégorie

pho-nétique à l’agent et celui-ci met directement à jour les paramètres de son répertoire auditif avec ces

deux informations. Nous avons fait ce choix en nous basant principalement sur les précédent travaux

effectués sur le modèle COSMO (voir par exemple Laurent, 2014; Moulin-Frier et al., 2012). Cet

ap-prentissage a le mérite d’être simple à mettre en place, ce qui, du point de vue computationnel, n’est

pas négligeable, mais qui, du point de vue cognitif, n’est pas réellement un argument. Nous savons

que le bébé est influencé par les signaux sensoriels de sa langue, nous pouvons donc supposer qu’il

perçoit effectivement le signal sensoriel provenant de l’extérieur et s’en serve pour mettre à jour ses

paramètres. Nous avons modélisé cela à l’aide d’un maître mais tout signal de l’environnement ayant

les propriétés de sa langue aurait pu faire l’affaire. Néanmoins, le fait qu’il soit capable

d’interpré-ter directement la catégorie phonétique correspondant à ce signal pose davantage de questions. Nous

avons deux hypothèses : soit le maître est capable de fournir à l’agent une information sur la catégorie

en question, soit l’agent possède déjà des connaissances innées sur ses catégories phonétiques et est

directement capable de les associer à des sons.

Étudions le premier cas en supposant que le maître réussisse à informer l’agent de la catégorie

phonétique correspondant au signal sensoriel. Une des hypothèses retenues pour expliquer ce

com-portement est la deixis (voir Laurent, 2014; Moulin-Frier, 2011, pour plus de détails). Cela suppose

que le bébé perçoit chaque son en relation avec un élément extérieur et que le bébé se sert de cet

élément extérieur pour labeliser le son entrant. Par exemple, imaginons une situation dans laquelle

le bébé est capable de reconnaître un biberon et que dans ce mot, il ne retienne que la syllabe [bi].

Ainsi, à chaque fois que le maître prononce le mot biberon en présence du biberon, le bébé peut

as-socier le son « bi » à la syllabe [bi]. Cet exemple, et cette vision en général, présentent néanmoins

de nombreuses limites : si deux éléments différents sont identifiés par une même syllabe, disons [bi],

le bébé risque d’apprendre deux catégories phonétiques pour la même syllabe [bi]. De même, il est

difficilement justifiable de supposer que le bébé identifie chaque élément de son environnement par

une catégorie phonétique et non par un mot. En revanche, du fait que cette situation soit en accord

avec la littérature en ce qui concerne les mots, il peut être supposé que la catégorie phonétique puisse

être déduite du mot à partir d’un traitement lexical mais que ce traitement serait réalisé implicitement

dans le modèle COSMO.

Passons au second cas pour lequel le bébé possèderait déjà des connaissances sur ses catégories

phonétiques. Cette hypothèse est souvent exploitée par les phonologues mais assez peu par les

pho-néticiens. Par ailleurs, même s’il est vrai que les bébés possèdent une perception catégorielle de façon

précoce, celle-ci semble davantage provenir d’un mécanisme général auditif que de mécanismes

lin-guistiques (Vihman, 2013, voir par exemple). Il n’y a donc aucune preuve actuelle que le bébé possède

déjà une connaissance de ses catégories phonétiques à la naissance et encore moins qu’il sache les

re-connaître dans un signal sensoriel. En effet, la perception catégorielle montre que le bébé sait mieux

discriminer les sons dans certaines régions de l’espace acoustique mais cela n’implique pas forcément

qu’il sache les catégoriser en conséquence.

Ces deux hypothèses mises à part, les chercheurs semblent supposer, comme nous l’avons vu

dans le chapitre 2, que les catégories phonétiques s’obtiennent, en partie, par un apprentissage

statis-tique non supervisé. C’est, entre autres, pour cette raison que nous avons testé dans COSMO SylPhon

un apprentissage non supervisé dans lequel l’agent n’a accès qu’au signal sensoriel du maître. Dans

celui-ci, le bébé apprend à relier ses représentations sensorielles aux catégories phonétiques

seule-ment à partir du son qu’il perçoit. Cela correspond à l’apprentisssage réalisé dans plusieurs modèles

d’apprentissage sensoriel évoqués au chapitre 3. Une perspective pour cet apprentissage phonétique

serait la prise en compte des mots. En effet, à partir d’un certain âge, quand le bébé commence à

apprendre les mots, ceux-ci viennent influencer la relation entre les représentations auditives et les

catégories phonétiques (Feldman et al., 2013b). Dans cette thèse, nous avons explicitement choisi de

ne pas prendre en compte les mots. Une perspective sur cette thématique est cependant proposée dans

la prochaine section.

Le dernier apprentissage est l’apprentissage par accommodation que nous utilisons pour

l’appren-tissage sensorimoteur et l’apprenl’appren-tissage moteur. L’accommodation consiste en un apprenl’appren-tissage

sta-tistique basé sur l’imitation des signaux reçus par l’agent. Cet apprentissage semble crédible puisque

nous savons d’une part que le bébé est capable d’imiter des sons et que d’autre part ce qu’il produit est

influencé par les sons de sa langue. Ceci laisse supposer, qu’en effet, il semble capable d’apprendre

à produire en se basant sur ce qu’il perçoit. Néanmoins, comme le développement sensorimoteur est

difficile à analyser, une évaluation précise de notre hypothèse d’accommodation à partir d’une « vérité

de terrain » semble, actuellement, hors de portée.

Une des phases d’apprentissage manquantes est l’apprentissage du contrôle du conduit vocal.

Avant que le bébé ne produise des sons correspondant à du son perçu ou à des catégories phonétiques,

le développement semble supposer qu’il apprend au préalable à contrôler son conduit vocal. C’est

d’abord ce qu’il semble se passer lors de la phase de « cooing », lors de laquelle il produit des

proto-voyelles. Après cette première phase, le bébé apprend à produire réellement des voyelles. De la

même manière, avant la phase de babillage, le bébé apprend à contrôler son conduit vocal et produit

un babillage marginal, dans lequel les séquences d’ouverture et fermeture ne respectent pas encore

les caractéristiques temporelles des syllabes comme dans le babillage canonique. Cependant, le fait

que cette phase d’apprentissage manque dans COSMO est principalement dû au fait que nous ne

modélisons pas les effecteurs du bébé et que nous ne faisons pas la différence entre geste prédit et

geste produit. Ainsi, les prédictions de notre agent COSMO apprenant correspondent directement à

ce qu’il produit, comme s’il maîtrisait déjà parfaitement son conduit vocal. Cela mériterait sans aucun

doute d’être amélioré.

Par ailleurs, l’apprentissage par accommodation pourrait être aussi amélioré sur sa composante

sociale. En effet, même si le bébé semble effectivement baser son apprentissage sur ce qu’il perçoit,

le retour de son environnement semble également important. Il a, par exemple, été montré par

Gold-smith et Xanthos (2009), qu’un bébé vocalisait mieux et davantage s’il avait un retour direct de sa mère

après ses vocalisations. Dans nos implémentations, cette composante a été assez peu développée. Il

sera donc essentiel, dans une phase future de cette recherche, de travailler sur des scénarios

d’in-teraction plus réalistes, en s’inspirant des nombreuses données et observations sur les conditions de

développement du langage et le rôle des interactions sociales dans les processus d’apprentissage (voir,

par exemple, Kuhl, 2007).

8.1.3.3 Le maître

Un ou plusieurs maîtres Dans chacune des implémentations du modèle COSMO, nous avons fait le

choix de n’implémenter qu’un seul maître, qui est, pour rappel, l’agent communiquant des stimuli pour

l’agent apprenant lors des différentes phases d’apprentissage. Le choix d’un maître unique facilite

non seulement l’implémentation mais aussi la comparaison des différentes simulations et donc des

différents agents apprenants.

Cependant, à part dans de rares cas, il semble inenvisageable que le bébé apprenne ses catégories

phonétique à partir des signaux d’une seule personne. Il serait donc judicieux de proposer dans des

prochaines versions de COSMO, un apprentissage multi-locuteur. Cela nécessite néanmoins des

ré-flexions préalables sur les différences d’implémentation concernant chaque maître, sur la proportion

de stimuli fournis par chacun, et sur les différences possibles du scénario d’apprentissage.

Une question serait de savoir si en introduisant plusieurs maîtres, la variabilité des catégories

phonétiques augmente de la même manière que s’il existait une sorte de « méta maître » possédant une

grande variabilité dans ses signaux, ou si la présence de plusieurs maîtres nécessite plutôt d’apprendre

des modèles différents ainsi que des stratégies d’adaptation propres à chaque maître comme dans les

modèles de Johnson (1997) ou Kleinschmidt et Jaeger (2015).

Par ailleurs, la présence de plusieurs maîtres pourrait faciliter la comparaison et l’influence des

différents scénarios d’apprentissage. Nous pourrions, par exemple, imaginer deux maîtres : l’un passif,

ne faisant que communiquer de façon indirecte à l’agent apprenant en lui fournissant des stimuli sans

retour particulier, et un maître actif communiquant avec le bébé de façon directe et réalisant des retours

sur ses productions.

La nécessité du maître Nous venons d’évoquer le maître en supposant pour de futures

simula-tions qu’il ne soit plus unique. Nous pouvons néanmoins remettre en question sa nécessité durant

l’apprentissage. En effet, dans toutes les implémentations du modèle COSMO, nous supposons que

le maître intervient dans chaque phase d’apprentissage et à chaque itération de l’apprentissage mais

cette hypothèse est discutable.

Du fait que le bébé semble apprendre par apprentissage statistique à relier ses catégories

phoné-tiques à ses représentations auditives, il semble effectivement important que le bébé ait connaissance

des signaux de l’environnement, et donc ait besoin d’un tuteur, pour effectuer son développement

au-ditif. L’implémentation d’un maître semble donc importante pour cette phase d’apprentissage. Durant

le développement sensorimoteur et moteur le bébé semble vocaliser et babiller dans sa langue

ma-ternelle. Cependant, il faut se rappeler que l’étape de vocalisation, tout comme l’étape de babillage,

sont précédées d’une phase de pré-vocalisation et pré-babillage. Si les étapes finales semblent être

influencées par l’environnement, les étapes préalables, davantage exploratoires, peuvent être réalisées

de façon indépendante de l’environnement.

Dès lors, nous pourrions imaginer dans COSMO un apprentissage sensorimoteur et un

apprentis-sage moteur qui se réalise de façon autonome dans laquelle l’agent apprend à contrôler son conduit

vocal. Puis, une fois que l’agent a exploré de façon satisfaisante les possibilités de son conduit vocal,

il tenterait de reproduire ce qu’il entend. Cette étape d’exploration sensorimotrice n’est pas novatrice

et a déjà été implémentée dans plusieurs modèles comme nous l’avons vu dans le chapitre 3, depuis

les premiers modèles dans les années 90 (par exemple Bailly, 1997; Guenther, 1995), jusqu’aux

si-mulations récentes dans le cadre de la robotique cognitive (par exemple Oudeyer et al., 2010). Ces

derniers développent notamment un mécanisme d’exploration des gestes moteurs en se basant sur le

principe de curiosité.

Par ailleurs, les deux types d’apprentissage imaginés, l’un d’exploration autonome et l’autre

d’imi-tation des stimuli ne sont pas forcément contradictoires. Il est possible d’envisager que ces deux

mé-canismes se réalisent en parallèle. Si cette hypothèse s’avère crédible, il faudrait réfléchir à la manière

d’implémenter ce parallélisme dans COSMO. Le principe d’accommodation s’en rapproche mais

né-cessiterait en plus un mécanisme de sélection auto-centré. Dans tous les cas, ces perspectives

s’appa-rentent à la réflexion plus générale sur les rôles respectifs de l’environnement et de l’apprentissage

personnel dans l’acquisition des catégories phonétiques.