Apprentissage du modèle

5.2 Analyse de l’apprentissage sensorimoteur

réper-1. Après la descente, nous observons une légère remontée, due à l’apprentissage de données sensorielles de faibles probabilités.

5.2 Analyse de l’apprentissage sensorimoteur

6.1.3 Apprentissage du modèle

0.01 0

0 0.01

.

La variabilité de production du maître, ainsi que celle issue des artéfacts de l’environnement, sont

donc considérées dans cette étude comme très faibles. Cette quasi-absence de variabilité permet de

faciliter l’analyse des mécanismes permettant l’apparition des idiosyncrasies, dépendant uniquement

des différences entre individus.

6.1.3 Apprentissage du modèle

6.1.3.1 Généralités sur l’apprentissage

L’apprentissage concerne les trois phases du développement présentées dans le chapitre 3 :

l’ap-prentissage sensoriel, l’apl’ap-prentissage sensorimoteur et l’apl’ap-prentissage moteur. Dans cette étude, elles

sont réalisées successivement et de manière indépendante. Ceci est important pour l’apprentissage

moteur que nous souhaitons étudier indépendamment des deux autres. Nous supposons donc que

l’apprentissage sensoriel et sensorimoteur sont déjà terminés (ou du moins bien avancés) quand

l’ap-prentissage moteur commence.

Les trois apprentissages ont chacun été réalisés sur 25 000 itérations. Nous implémentons 12

simulations qui diffèrent uniquement par le tirage des stimuli envoyés par le maître via la distribution

P(S |O

). Ces 12 simulations peuvent être vues comme 12 agents différents, opérant dans le

même environnement d’apprentissage (même maître et mêmes caractéristiques d’implémentation).

Au début de l’apprentissage, les distributions gaussiennesP(M |O

),P(S |M)etP(S |O

) de

l’agent apprenant sont initialisées avec une moyenneµsituée au centre de l’espace correspondant et

avec des termes diagonaux de la matrice de covarianceΣde la taille de cet espace. Cela permet de

simuler des distributions quasi-uniformes en début d’apprentissage.

6.1.3.2 Description des deux méthodes d’apprentissage

Décrivons maintenant plus en détail comment s’effectue l’apprentissage moteur (pour rappel, voir

section 4.2.3.4). Comme énoncé précédemment (voir section 6.1.1), nous considérons deux types

d’apprentissage moteur : un apprentissage par imitation et un apprentissage par communication.

Dans COSMO, la différence entre ces deux apprentissages moteurs s’effectue au niveau de

l’in-férence d’un geste moteur lorsque le maître a envoyé à l’agent un signal acoustiqueset l’objet

cor-respondanto. Lors de l’apprentissage par imitation, cette inférence s’effectue grâce à un tirage sur

la distributionP(M |[S = s] [O

= o])(voir Eq. 4.7 du chapitre 3). Lors de l’apprentissage par

communication, elle s’effectue à l’aide d’un tirage sur la distributionP(M |[O

=o] [C= 1]). Mise

à part cette différence, le reste de l’apprentissage moteur est identique entre les deux méthodes.

Etudions plus précisément ces deux distributions. Comme il a déjà été précisé dans le chapitre 3

(voir Eq. 4.7), la distributionP(M |[S =s] [O

=o])utilisée dans l’apprentissage par imitation se

décompose comme suit :

P(M |[S =s] [O

=o])∝P(M |[O

=o])P([S =s]|M). (6.1)

Dans cette équation, le répertoire moteurP(M |O

) permet de choisir une représentation motrice

correspondant à l’objeto du maître tandis que le modèle interne P(S |M) permet de choisir une

représentation motrice correspondant au stimulus s envoyé par le maître. Comme les stimuli s et

l’objeto du maître sont toujours envoyés simultanément, si la représentation motrice sélectionnée

permet de reproduire la représentation sensoriellesperçue, alors elle permet également de reproduire

l’objeto envoyé. C’est pourquoi, nous supposons que, si le modèle interne a bien convergé en fin

d’apprentissage sensorimoteur, alors les représentations motrices sélectionnées à partir du modèle

in-terneP([S=s]|M)permettent non seulement de reproduire les bonnes représentations sensorielles

smais également les bons objetso. Le répertoire moteurP(M |O

) permettrait de valider ce

der-nier choix. Dans cette situation, tous les agents devraient donc se focaliser sur la reproduction des

représentations sensorielles du maître et aucune idiosyncrasie ne devrait apparaître entre eux.

De son côté, la distributionP(M|[O

=o][C= 1])se décompose par :

P(M |[O

=o][C= 1]) ∝ P(M |[O

=o])X

P(S|M)P([O

=o]|S), (6.2)

∝ P(M |[O

=o])P(M |[O

=o]). (6.3)

Cette équation est composée du répertoire moteurP(M |OS), qui permet de choisir une

représen-tation motrice correspondant à l’objet o du maître, et d’une combinaison entre le modèle interne

P(S |M) et le décodeur auditif P(S |O

), équivalente à P(M |O

), qui permet, elle aussi, de

choisir une représentation motrice correspondant à l’objetodu maître. Tandis que la première de ces

deux distributions a comme effet de privilégier les représentations motrices déjà apprises, la seconde

oriente le tirage vers des stimuli susceptibles d’être bien décodés par le maître, sans être

nécessai-rement ceux que le maître lui-même utilise. Du fait que les deux distributions utilisées,P(M |OS)

=o])^X

) ∝ ^X

)∝^X