Description de l’apprentissage

5.2 Analyse de l’apprentissage sensorimoteur

^{M aitre}_S

v. Il s’agit des points de

_S^{M aitre}

5.2 Analyse de l’apprentissage sensorimoteur

5.2.5 Description de l’apprentissage

Dans le chapitre précédent, nous avons présenté un algorithme d’apprentissage sensorimoteur, que

nous utilisons dans la majorité de nos études. Dans cette étude, nous testons plusieurs variantes de cet

algorithme pour analyser plus en détail l’apprentissage sensorimoteur. Dans tous nos algorithmes,

nous considérons que l’apprentissage s’effectue de façon itérative, chaque itération se déroulant en

trois phases : une phase de sélection, dans laquelle l’agent choisit ce qu’il souhaite apprendre, une

phase de production, dans laquelle l’agent produit la représentation motrice m correspondant à ce

qu’il souhaite apprendre, et une phase de mise à jour, dans laquelle l’agent met à jour, entre autres,

la relation entre la représentation motricemchoisie et la représentation sensorielles

résultant de sa

production.

Commençons par détailler la phase de sélection. Comme nous l’avons observé dans le chapitre 3,

dans les modèles computationnels, la sélection repose globalement sur deux choix : le premier choix

concerne l’espace à explorer, le second concerne la stratégie d’exploration.

Concernant l’espace à explorer, comme précédemment rappelé, il y a deux possibilités. Soit

l’es-pace à explorer est l’esl’es-pace des représentations motrices, ce qui est nommé babillage moteur (« motor

babbling »), soit il s’agit de l’espace des représentations sensorielles, ce qui est nommé babillage

d’objectifs (« goal babbling »). Dans notre modèle, l’exploration via le babillage moteur consiste

à sélectionner une représentation motricem, puis à effectuer la phase de production et la phase de

mise à jour. Dans le babillage d’objectifs, la production ne peut se faire directement puisque l’espace

d’exploration est l’espace des représentations sensorielles. De ce fait, l’exploration via le babillage

d’objectifs consiste à sélectionner une représentation sensorielles, à inférer une représentation

mo-tricemcorrespondant à cette valeur des, puis à effectuer la phase de production et de mise à jour.

Plus précisément, l’inférence consiste à réaliser un tirage via la distributionP(M|S), qui se calcule

dans le modèle actuel par :

P(M|S)∝P(M)P(S|M). (5.12)

Le choix de l’espace d’exploration modifie donc également l’algorithme d’apprentissage.

Les stratégies d’exploration sont beaucoup plus nombreuses que les espaces à explorer. Nous

n’avons pas la prétention d’être exhaustif et nous n’en avons testé que deux. La première est une

stratégie d’exploration aléatoire dans laquelle les représentations sélectionnées, motrices dans le cas

du babillage moteur ou sensorielles dans le cas du babillage d’objectifs, sont tirées aléatoirement

dans l’espace. C’est cette stratégie d’exploration que nous utilisons pour comparer les deux espaces

d’exploration, sensoriels et moteurs. Nous avons donc un algorithme d’exploration aléatoire avec

babillage moteur, RMB (« random motor babbling ») et un algorithme d’exploration aléatoire avec

babillage d’objectifs RGB (« random goal babbling »).

La seconde stratégie d’exploration n’est réalisée qu’avec le babillage d’objectifs. Il s’agit d’une

stratégie d’exploration guidée socialement à l’aide de la distributionP(S

|O

) du maître,

telle qu’elle a été décrite ci-dessus. Les trois objetsO

([a i u]) ayant une même fréquence

d’ap-parition, ils sont tirés successivement, les uns après les autres, durant les itérations de l’apprentissage.

Du fait que le maître ne peut fournir que des représentations sensorielles, seul le babillage d’objectifs

a été testé avec un apprentissage guidé. Cela correspond à ce que nous nommons le principe

d’accom-modation. L’algorithme basé sur ce principe est nommé AGB (« accommodation goal babbling »).

Passons à la phase de production. Celle-ci consiste à produire la représentation motrice met à

percevoir la représentation sensorielles

correspondante. La transformation de l’articulation en signal

acoustique s’effectue, comme pour le maître, avec le modèle VLAM, via la distribution P(S

|M

). Pour des raisons de simplifications, et comme pour le maître, il est considéré que les

repré-sentations motricesM de l’agent sont équivalentes à leur réalisationM

et que les représentations

sensoriellesSde l’agent sont équivalentes au stimuliS

résultant de cette production (voir Fig.4.9).

Pour la phase de mise à jour, trois stratégies ont été mises en place. La première est une stratégie

consistant à mettre simplement à jour le modèle interne P(S |M) avec la représentation motrice

m et la représentation sensorielle s

. Le prior moteurP(M), lui, reste uniforme et n’influe pas sur

l’apprentissage. C’est la stratégie qui est appliquée pour les algorithmes cités précédemment : RMB,

RGB et AGB.

La deuxième stratégie est une stratégie d’exploration auto-centrée dans laquelle sont favorisées

les représentations motrices précédemment sélectionnées. Elle consiste à mettre à jour le prior moteur

P(M) avec la représentation motricem sélectionnée en plus du modèle interne P(S |M). C’est

ce que nous nommons le babillage idiosyncratique. L’algorithme correspondant à cette stratégie est

nommé IGB (« idiosyncratic goal babbling ). Il a été implémenté via le babillage d’objectifs avec

une stratégie d’exploration guidée. Ainsi, il ne diffère d’AGB que dans la phase de mise à jour. Le

fait d’avoir ces deux algorithmes permet de comparer l’influence du prior moteur lors de l’inférence

d’une représentation motrice via la distributionP(M |S)(voir Eq. 5.12).

Précisons la phase de mise à jour du prior. Dans les autres algorithmes, le priorP(M)est

constam-ment uniforme. Comme il évolue dans l’algorithme IGB, nous avons défini une manière de le mettre

à jour. Nous considérons donc que le prior moteur est calculé dans cet algorithme à partir d’un

para-mètresum

qui correspond au nombre de fois qu’une valeurma été sélectionnée. Ainsi, il possède

15 625 valeurs, c’est-à-dire le nombre de représentations motrices dans l’espace moteur. À chaque

itération, ce paramètre est incrémenté pour la représentation motricemsélectionnée et le priorP(M)

est ensuite mis à jour, ce qui s’effectue comme suit :

sum

P(M) = _P^sum

) = ^X