2.5 Apprentissage du système moteur par accomodation
2.5.3 Illustrations de la convergence de l’apprentissage : développe-
idiosyncrasies
De manière similaire à ce qui est fait à la section 2.4.3, nous illustrons ici la convergence
de l’apprentissage du système moteur en nous focalisant sur les représentations motrices des
voyelles, qui sont plus facilement visualisables.
Dans un premier temps nous nous donnons une mesure globale de ce qui est appris par
l’agent : l’évolution de l’entropieH(P(M
V0| O
Sπ
Ag)) des répertoires moteurs de voyelle nous
renseigne sur la manière dont l’agent organise ses connaissances au cours de l’apprentissage.
Pour chaque syllabeoparmi /ba-bi-bu-da-di-du-ga-gi-gu/, la figure montre l’évolution de l’entropie
H(P(M
V0| [O
S=o] π
Ag)) au cours de l’apprentissage.
Figure 6.9: Évolution de l’entropie des répertoires moteurs de voyelles au cours de
l’apprentissage. Chacune de ces neuf courbes décrit l’évolution au cours de l’apprentissage de
l’entropie de la distribution de probabilitéP(M
V0| [O
S=o] π
Ag) pour chacune des neuf valeurs
de oparmi /ba bi bu da di du ga gi gu/.
Au début de l’apprentissage, les neuf distributions de probabilité P(M
V0| [O
S=o] π
Ag)
ont une valeur d’entropie élevée, ce qui caractérise le fait que l’agent n’a encore rien appris.
L’information stockée dans ses répertoires moteurs de voyelles est alors très proche de
distribu-tions de probabilité uniformes, du fait de l’utilisation de nos gaussiennes dégénérées. A titre de
comparaison, l’entropie d’une distribution de probabilité uniforme sur un espace de taille 25
3est d’environ 13,9 bits.
Lors des premières itérations de l’algorithme, l’entropie diminue fortement : chaque
nou-velle syllabe produite par l’agent pour imiter le maître contribue fortement à diminuer la
vari-ance de la distribution de probabilité P(M
V0| [O
S=o] π
Ag) associant les gestes moteurs de
voyelles M
V0à l’objet o. Par la suite, les productions de l’agent apportent de moins en moins
d’information nouvelle par rapport à l’historique des connaissances accumulées par l’agent, et
l’entropie diminue de moins en moins vite.
Il est intéressant de remarquer que, bien que les trois groupes de syllabes /ba-da-ga/, /bi di
gi/ et /bu du gu/ ont la voyelle en commun, les répertoires de gestes moteurs de voyelles que
l’agent leur associe ont des profils différents. Par exemple, on peut voir sur la figure 6.9 que dans
les répertoires de gestes de voyelles que l’agent s’est construit, le /i/ de /di/ est plus variable que
le /i/ de /bi/ puisqueH(P(M
V0| [O
S=di] π
Ag))≈6 alors queH(P(M
V0| [O
S=bi] π
Ag))≈5.
Ainsi, bien que la décomposition de la distribution de probabilité conjointe du modèles
COSMO-S (voir figure 6.1) ne fasse pas apparaître de dépendence explicite de la voyelle vis-à-vis de
la consonne, l’algorithme d’apprentissage que nous proposons a la propriété remarquable de
permettre à l’agent de capturer des effets de coarticulation au niveau des répertoires de gestes
moteurs que l’agent se construit pour les voyelles.
Regardons maintenant de manière plus précise quels sont les gestes moteurs que l’agent
choisit d’associer préférentiellement aux différentes voyelles. La figure 6.10 compare les gestes
moteurs réalisés par l’agent à différents stades de l’apprentissage : au début (les 500 premières
voyelles réalisées), en cours d’apprentissage (les 500 voyelles suivant la 2000-ième itération) et
à la fin (les 500 dernières voyelles produites par l’agent après 100000 itérations).
Figure 6.10: Les gestes moteurs de voyelles produits au cours de l’apprentissage par
imitation superviséese concentrent progressivement sur une zone de l’espace moteur de plus
en plus petite au fur et à mesure que l’apprentissage se fait. Les voyelles sont présentées dans
l’espace des paramètresTongueBody (T B),TongueDorsum (T D) etLipHeight(LH) deVLAM.
Cette figure montre comment l’ancrage de choix moteurs implémenté par notre mécanisme
de renforcement permet à l’agent de résoudre le problème du many-to-one en développant
pro-gressivement des préférences pour certains gestes. Au début de l’apprentissage, les productions
de l’agent sont les mêmes que celles réalisées à la fin de la phase d’apprentissage du système
sensori-moteur de l’agent (voir figure 6.8). En effet, le système moteur de l’agent ne contenant
initialement aucune connaissance, ce qui est décrit par des distributions de probabilité quasi
uniformes, l’inférence pour la tâche d’imitation présentée à l’équation 6.10 se simplifie : tous
les termes correspondant au système moteur ont un poids constant, qui peut être absorbé par
l’opérateur de proportionalité, ce qui conduit à l’équation 6.4 qui ne fait intervenir que les
modèles internes de l’agent.
Ainsi, au début de l’apprentissage, le système moteur de l’agent n’apporte pas d’information
pour le choix des gestes d’imitation, et l’agent utilise simplement les connaissances stockées dans
ses modèles internes pour atteindre les cibles proposées par le maître. Ensuite, au fur et à mesure
que l’agent continue à imiter le maître, il associe les commandes motrices correspondant aux
syllabes communiquées par le maître en mettant à jour ses répertoires de gestes moteurs. De
ce fait, confronté ensuite à une même cible, l’agent choisira avec une probabilité supérieure un
geste qu’il y a déjà associé par le passé, rendant encore plus plausible le choix de ce même geste
dans le futur. Ce mécanisme de renforcement fait que l’agent construit ses prototypes moteurs
en ancrant des préférences liées aux réalisations des premiers tirages aléatoires ayant lieu au
début de l’apprentissage. C’est ainsi que les premiers choix de gestes effectués par l’agent lui
permettent de développer au cours de l’apprentissage des comportements qui lui sont spécifiques,
c’est-à-dire de développer des idiosyncrasies qui le distinguent d’autres agents caractérisés par
d’autres historiques d’apprentissage.
Dans le document
COSMO : un modèle bayésien des interactions sensori-motrices dans la perception de la parole
(Page 145-148)