7.3 Apprentissage
7.3.4 Apprentissage moteur
7.3.4.1 Description de l’apprentissage
L’apprentissage moteur concerne l’apprentissage de la branche motrice. Dans COSMO SylPhon,
cela concerne l’apprentissage des répertoires moteurs et des priors sur les noyaux moteurs. Il est en ce
sens très proche de l’apprentissage sensoriel. Il est également composé de trois sous-apprentissages :
un apprentissage moteur consonantique, un apprentissage moteur vocalique et un apprentissage
mo-teur syllabique. Nous le présentons, comme pour l’apprentissage sensoriel, de façon globale en nous
servant des variables génériquesN
Spour les noyaux moteurs, S
Mpour les représentations
senso-rielles,M pour les représentations motrices liées au représentations sensorielles,MN pour les
repré-sentations motrices liées aux noyaux etλ
Mpour la variable de cohérence liant les deux représentations
motrices.
Comme l’agent apprend les répertoires moteursP(MN |NS) et leur prior associéP(NS), cet
apprentissage peut être assimilé à l’apprentissage d’une mixture de gaussiennes tel que :
P(MN) =X
NSP(NS)P(MN |NS). (7.13)
L’apprentissage moteur se fait par accommodation. Les étapes sont les suivantes :
1. L’agent apprenant reçoit le signal sensorielscorrespondant à la syllabe choisie par le maître,
constitué du couple< sc, so>.
2. Il sélectionne une représentation motricemgrâce à un tirage sur la distributionP(M |[S
M=
s])calculée par inférence.
3. L’agent infère le noyau n correspondant à la représentation motrice m en sélectionnant le
noyau le plus probable dansP(N
S|[M =m] [λ
M= 1]).
4. L’agent met à jour la moyenne et la variance de sa distributionP(M
N|[N
S= n]) avec le
paramètremet le prior concernéP(NS)pour la valeurn.
Précisons maintenant les trois sous-apprentissages. Durant l’apprentissage vocalique, l’agent
n’uti-lise que le signals
opour inférer une représentation motricem
oà partir de la distributionP(M
O|
[S
OM=so]). Ensuite, il infère un noyaun
o, par inférence surP(N
SO|[MO=mo] [λ
OM O= 1]). Pour
finir, il met à jour les paramètres de sa distributionP(MN O|N
SO)et de son priorP(N
SO).
Durant l’apprentissage consonantique, l’agent utilise les deux signauxs
oets
c. Pour faciliter lescalculs, il infère d’abord une représentation motricem
oà partir de la distributionP(M
O|[S
MO
=s
o])
puis un gestemc à partir de la distributionP(MC |[S
CM= sc][MO = mo]). Cela évite de devoir
calculerP(M
C|[S
CM=s
c] [S
OM= s
o]), ce qui est computationnellement plus coûteux. Ensuite, il
infère un noyaun
cà partir de la distributionP(N
SC|[MC =mc] [MO =mo] [λ
CM C= 1] [λ
OM O= 1]).
Pour finir, il met à jour les paramètres de sa distributionP(∆M |N
SC)et de son priorP(N
SC).
Durant l’apprentissage syllabique, l’agent utilise le signal sensorielsde la syllabe pour inférer une
représentation motrice< m
c, m
o>à partir de la distributionP(M
CM
O|[S
MC
= s
c] [S
MO
=s
o]).
Ensuite, il infère un noyaun
sylà partir de la distributionP(N
SSyl|[MC =mc] [MO =mo][λ
SylM C=
1] [λ
SylM O= 1]). Pour finir, il met à jour les paramètres de sa distributionP(∆M
SylM
N OSyl|N
SSyl)et
de son priorP(N
SSyl).
Les inférences correspondantes, non déjà explicitées, sont les suivantes :
P(M
CM
O|[S
CM=s
c] [S
OM=s
o]) (7.14)
∝ P(M
O)P([S
OM=s
o]|M
O)P(M
C|M
O])P([S
CM=s
c]|M
C),
P(N
SO|[M
O=m
o] [λ
OM O= 1]) (7.15)
∝ P(N
SO)P([M
N O=mo]|N
SO),
P(N
SC|[MC =mc] [MO =mo] [λ
CM C= 1] [λ
OM O= 1]) (7.16)
∝ P(N
SC)P([∆M =mc−mo]|N
SC),
P(N
SSyl|[M
C=m
c] [M
O=m
o] [λ
SylM C= 1] [λ
SylM O= 1]) (7.17)
∝ (N
SSyl)P([MN O =mo]
Syl[∆M
Syl=mc−mo]|N
SSyl).
7.3.4.2 Détails sur l’apprentissage
Dans ses détails d’implémentation, l’apprentissage moteur est assez proche de l’apprentissage
sensoriel. Il est donc réalisé lui-aussi avec cinq agents apprenants différents mais nous ne présentons
que les résultats d’un unique agent.
L’apprentissage moteur est réalisé après l’apprentissage sensorimoteur. Chaque étape de
l’ap-prentissage moteur étant assez longue computationnellement, chaque sous-apl’ap-prentissage ne dure que
50 000 itérations. Nous illustrons les résultats obtenus pournb
SO(du priorP(N
SO)) etnb
SC(du prior
P(N
SC)) à 50 et pournb
SSyl(du priorP(N
SSyl)) à 60.
Nous effectuons un enregistrement des paramètres à certaines valeurs au cours de l’apprentissage,
dix-sept au total : beaucoup au début de l’apprentissage et de moins en moins par la suite.
7.3.4.3 Analyse de l’apprentissage
Afin d’analyser la qualité d’apprentissage des trois sous-apprentissages moteurs, nous souhaitons
comparer les distributionsP(M)de l’agent avec celles de l’environnement. Cependant,
l’apprentis-sage moteur permet d’apprendre des distributions motrices et non pas des distributions sensorielles.
Nous étudions donc, non pas les distributions motrices directement, mais leur transformation
audi-tive après production. Pour réaliser cette transformation, nous utilisons les dictionnaires calculés avec
VLAM. Nous obtenons ainsi trois distributions P(S) que nous comparons avec la distribution de
l’environnement.
Pour commencer, nous calculons, comme lors de l’apprentissage sensoriel, la KL divergence
moyenne (voir Eq. 7.10) entre la distributionP(S)de l’agent et celle de l’environnement. Celle-ci
est représentée Fig. 7.10.
Nous observons que les trois sous-apprentissages convergent tous très rapidement, en moins de
1 000 itérations. Cela montre que grâce à l’apprentissage sensorimoteur, déjà appris, les
distribu-tions motrices peuvent se stabiliser très rapidement. Cependant, elles conservent une erreur non
né-FIGURE7.10 – Évolution de la KL divergence moyenne au cours du temps entre la distribution motrice
de l’agent après production et la distribution sensorielle de l’environnement
gligeable : environ 4 pour les phonèmes et environ 8 pour les syllabes, cette différence pouvant
s’ex-pliquer par la différence de dimensions entre les espaces phonémiques et syllabiques. Ainsi, même si
l’apprentissage se fait très rapidement, les distributions motrices convergent vers une distribution qui
ne semble pas totalement similaire à celle de l’environnement.
Pour mieux appréhender si ces distributions permettent de reproduire les données de
l’environ-nement, nous les examinons dans l’espace sensoriel en fin d’apprentissage. Afin de ne pas observer
uniquement la distribution globale mais aussi les distributions gaussiennes composant cette
distri-bution, nous calculons, comme lors de l’analyse de l’apprentissage sensoriel, les noyaux gaussiens
les plus représentatifs des données de l’environnement. Pour ce faire, nous inférons d’abord, à l’aide
des modèles internes, les représentations motrices les plus probables correspondant aux données
sen-sorielles de l’environnement. Ensuite, nous déterminons les noyaux moteurs les plus probables pour
chaque représentation motrice. Enfin, nous produisons cette représentation motrice, ce qui nous donne
un point dans l’espace sensoriel. L’ensemble des points obtenus pour un agent pour chacun des
sous-apprentissage est illustré Fig. 7.11.
Globalement, ces figures illustrent le fait que les distributions de l’environnement sont, dans
leur forme, bien reproduites (voir Fig. 7.5 pour comparaison) et que cela nécessite l’utilisation d’un
nombre de noyaux assez conséquent. Par ailleurs, la distribution phonémique semble une nouvelle
fois regrouper ces noyaux selon les voyelles de l’environnement. Néanmoins, nous remarquons que
plusiseurs noyaux semblent utilisés pour la même catégorie. Il est plus difficile de juger si c’est le cas
pour les branches consonantique et syllabique car les distributions gaussiennes se chevauchent dans
la plupart des portions de l’espace sensoriel.
Nous souhaitons voir si ce chevauchement observé dans l’espace sensoriel se retrouve également
dans l’espace moteur, notamment pour les consonnes. Pour cela, nous analysons les distributions
gaussiennes directement dans l’espace moteur∆M. Elles sont difficile à illustrer du fait que
l’es-pace consonantique est à cinq dimensions. C’est pourquoi nous projetons cet esl’es-pace dans des plans,
dans lesquels nous affichons les distributions gaussiennes dont les noyaux sont les plus probables (de
probabilité supérieure à 0,01). À titre d’exemple, nous montrons Fig. 7.12 le résultat obtenu pour un
agent pour les dimensionsT D,LHetApex.
(a) Noyaux consonantiques (b) Noyaux vocaliques
(c) Noyaux syllabiques, consonnes (d) Noyaux syllabiques, voyelles
FIGURE 7.11 – Illustration des noyaux obtenus pour un agent en fin d’apprentissage correspondant
aux données de l’environnement. Dans chaque figure, les points d’une même couleur correspondent
à la même distribution gaussienne. Ceux des deux distributions syllabiques correspondent aussi à la
même distribution gaussienne
Le choix des trois dimensionsT D,LH etApexn’est pas anodin puisque nous attendons que ce
soit dans ces dimensions qu’apparaissent les invariants consonantiques. En effet, pour rappel,
l’hy-pothèse de départ est que la plosive [b] est associée à un mouvement des lèvres (LH), la plosive [d]
à un mouvement de la pointe de la langue (Apex) et la plosive [g] à un mouvement du dos de la
langue (T D). Nous avons initialisé les distributions gaussiennes en position de repos (0), de façon à
ce qu’elles aient une grande variance sur la dimensionJ awet parmi une des dimensionsT B,T D,
LHouApexet une petite variance sur les autres dimensions. Nous souhaitons en ce sens influencer
l’agent apprenant, en début d’apprentissage, à ne bouger qu’un unique articulateur, en plus de la
mâ-choire, et par la suite, évaluer sa capacité à maintenir ce fonctionnement pour reproduire les données
du maître
La Fig. 7.12 nous permet de faire deux observations. Premièrement, les noyaux ont conservé le
bootstrap initial : ils ne présentent une grande variance que sur une des trois dimensions observées.
Les distributions ont une petite variance et sont centrées sur 0, c’est-à-dire en position de repos, sur
les autres dimensions. Ainsi, l’agent semble avoir réussi à apprendre les invariants consonantiques
comme nous le souhaitions. Deuxièmement, nous observons que chaque dimension possède plusieurs
noyaux, ce qui signifie que pour un agent, une même consonne est représentée par plusieurs noyaux.
Le point remarquable est que, bien que les distributions gaussiennes consonantiques de l’agent se
chevauchent dans l’espace sensoriel, les distributions sont séparables dans l’espace moteur.
FIGURE7.12 – Illustration des distributions gaussiennes consonantiques dans les dimensionsT D,LH
etApexde l’espace moteur∆M. Chaque ellipse d’une même couleur représente la même distribution
gaussienne
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 172-177)