• Aucun résultat trouvé

L’apprentissage des paramètres de notre modèle d’agent communicant se fait au travers

d’inter-actions avec un agent maître. L’agent π

Ag

et l’agent maître π

M aître

sont deux instances de

notre modèleCOSMO. Cela veut dire en particulier que les modèlesπ

Ag

etπ

M aître

sont définis

par des distributions de probabilité conjointes décomposées de la même manière, sur les mêmes

variables, et que leurs distributions de probabilité conditionnelles sont décrites par les mêmes

formes paramétriques. En revanche, les valeurs des paramètres de ces formes paramétriques

peuvent différer.

Figure 4.2: Scénario d’interactions avec un agent maître : L’agent π

Ag

interagit avec

l’agent maître π

M aître

au sein de l’environnement π

Env

. L’agent reçoit des stimuli étiquetés

< s, o > lui permettant d’apprendre les liens entre les objets o communiqués par le maître et

Le paradigme d’interaction avec l’agent maître qui est la base de notre scénario

d’appren-tissage supervisé est le même que celui qui est présenté à la section 4.1 du chapitre précédent,

que l’on rappelle figure 4.2 : l’agent π

Ag

reçoit des stimuli étiquetés < s, o > lui

permet-tant d’apprendre les liens entre les objets o communiqués par le maître π

M aître

et les entrées

perceptivesscorrespondantes.

3.1.1 Les propriétés du modèle de l’environnement

Rappelons ici les deux objectifs de ce chapitre : comparer les prédictions des approches purement

motrices et purement auditives de la perception dans le bruit d’une part, et analyser l’impact de

la non-linéarité de la transformation articulatori-acoustique sur ces prédictions. Alors que pour

s’attaquer au premier objectif il suffit d’ajouter au moment du test un bruit de communication

qui n’était pas présent lors de l’apprentissage, le second nécessite de faire des hypothèses sur la

nature de la transformation articulatori-acoustique réalisée par l’environnement.

Ainsi, dans cette section et la suivante, nous spécifions les modèles de l’environnement π

Env

et du maîtreπ

M aître

afin d’étudier un cas d’école inspiré de l’idée selon laquelle les non-linéarités

de la transformation articulatori-acoustique décrites par Stevens fournissent des frontières

caté-gorielles naturelles. On choisit donc de décrire le lien physique entre nos variables

monodimen-sionnellesMetS(qui représentent respectivement les gestes articulatoires et leurs conséquences

perceptives) par une fonction sigmoïde.

S=sigmoide(M, a, b) =b×Arctan(a×M)

Arctan(a×b) . (4.1)

Le comportement de cette fonction est défini grâce à deux paramètres a et b, qui permettent

respectivement de contrôler la pente et l’amplitude de la sigmoïde. De plus, il s’agit d’une

fonction impaire, qui est donc symétrique par rapport à l’origine.

La figure 4.3 met en parallèle la vision de Stevens (1989) des non-linéarités et notre

fonc-tion sigmoïde avec plusieurs valeurs de pente utilisées pour modéliser différents degrés de

non-linéarité dans la relation articulatori-acoustique.

10 5 0 5 10

Espace moteur M

10

5

0

5

10

Espace perceptif S

S=sigmoide(M,a,12)

a=0.0008

a=0.8

a=8.0

Figure 4.3: Modélisation des non-linéarités: À gauche, les non-linéarités vues par Stevens

(1989) (deux plateaux sont séparés par une zone de forte instabilité) ; à droite trois fonctions

sigmoïdes pour lesquelles b= 12, avec trois valeurs différentes de apour montrer comment ce

paramètre permet de contrôler le degré de linéarité.

Comme le montre la figure 4.3, une faible valeur deacorrespond à une transformationM 7→

Squasiment linéaire, alors que des valeurs plus élevées deacorrespondent à une transformation

plus ou moins fortement non-linéaire. Cette fonction sigmoïde modélise de manière déterministe

la manière dont on obtient le signal physique à partir des consignes motrices du maître. À cela

vient s’ajouter un modèle de perturbation gaussien qui encode un bruit d’environnement. La

distribution sur les entrées perceptives reçues par l’agent lorsque le maître choisit une consigne

motricem s’écrit alors

PS | hM

M aître

=mi π

Env

=Gauss(sigmoide(m, a, b), σ

Env

) ,

c’est-à-dire une distribution de probabilité gaussienne dans laquelle la moyenne est donnée par

la fonction sigmoïde, et où l’écart-typeσ

Env

quantifie la manière dont le modèle de perturbation

(essentiellement le bruit de l’environnement) vient dégrader leS physique qui aurait été perçu

sinon. La valeur deσ

Env

est fixée à 1 pour l’apprentissage, et variera entre 1 et 10 au cours de

l’évaluation pour tester la robustesse au bruit de l’environnement.

3.1.2 Les propriétés du modèle du maître

Pour les besoins de l’apprentissage, il n’y a que deux termes de la décomposition de la

dis-tribution de probabilité conjointe du modèle du maître qui nous intéressent : la manière de

choisir les objets à communiquer selon le prior PO

SM aître

|π

M aître

, et la manière de choisir

des consignes motrices pour chaque objet o selon la distribution de probabilité conditionnelle

PM

M aître

| hO

M aS ître

=oi π

M aître

.

Le premier terme étant encodé par une distribution de probabilité uniforme, il n’y a pas de

paramètre à fixer : on a PhO

M aS ître

=o

i |π

M aître

= PhO

M aS ître

=o

+

i |π

M aître

= 1/2.

En revanche, il faut fixer la valeur des paramètres des gaussiennes encodant les répertoires

moteurs PM

M aître

|O

M aS ître

π

M aître

.

Puisque la non-linéarité de la transformation articulatori-acoustique (schématisée figure 4.3)

vient structurer l’espace perceptif (celui de la variable S), on tire parti de cette structure en

positionnant alors les prototypes moteurs du maître P(M

M aître

| O

SM aître

π

M aître

) de part et

d’autre de la zone de forte instabilité, attribuant ainsi à chaque objet (o

+

et o

) une zone de

plateau. Puisque les formes paramétriques qui ont été choisies pour représenter les prototypes

moteurs sont PM

M aître

| hO

M aS ître

=oi π

M aître

= Gauss(µ

o

, σ

o

), pour finir de spécifier le

système moteur de l’agent maître, il suffit de préciser que l’on fixe µ

o

= −5, µ

+o

= 5, et

σ

o

=σ

+

o

= 1 .

Pour fixer les idées, la figure 4.4 montre les prototypes moteurs du maître, trois différentes

transformations articulatori-acoustique (avec σ

Env

= 1) correspondant à différents niveaux de

non-linéarité, et les distributionsP(S|O

M aS ître

) sur les entrées perceptives qui arrivent à l’agent.

Lorsque la transformation articulatori-acoustique est parfaitememt linéaire, et en l’absence

de bruit de communication, les prototypes moteursPM

M aître

|O

S

π

M aître

du maître et leur

imagePS |O

SM aître

dans l’espace acoustique sont parfaitement similaires : ces distributions

de probabilités ont la même moyenne et le même écart-type. En revanche, augmenter le degré

de non-linéarité de la transformation articulatori-acoustique a trois conséquences : écarter la

moyenne des distributions de probabilité PS |O

M aS ître

, réduire leur écart-type, et induire

une légère asymétrie des distributions de probabilité surS. Finalement, la non-linéarité a pour

effet de séparer davantage dans l’espace acoustique ce qui l’est moins dans l’espace moteur.

P(S|OMaitre

S )

O

-5

0

5

O

+

0.00 0.03 0.06

-10 -5 0 5 10

-10

-5

0

5

10

Espace sensoriel S

cas linéaire

cas non linéaire (NL)

cas fortement NL

S=sigmoide(M)

-10 O

0 O

+

10

Espace moteur M

P

(

M

|

OS

πMaitre

)

0

0.01

0.02

0.03

0.04

Figure 4.4: Les distributions de probabilité sur les stimuli reçus par l’agent

PS |O

SM aître

(en haut à droite) dépendent des prototypes moteurs du maître

P(M

M aître

|O

M aS ître

π

M aître

) (en bas à gauche), et de la transformation articulatori-acoustique

PS |M

M aître

π

Env

réalisée par l’environnement (en haut à gauche).

3.1.3 Données d’apprentissage

Dans ce qui va suivre, l’agent π

Ag

apprend son classifieur auditif puis son modèle interne et ses

répertoires moteurs à partir des mêmes données, qui sont obtenues en combinant le modèle du

maîtreπ

M aître

et le modèle de l’environnementπ

Env

. Les interactions entre le maître et l’agent

apprenant se déroulent de la manière décrite à la section 4.1 du chapitre 3 : l’agent reçoit du

maître des stimulisainsi que les catégories d’objets o correspondantes. Ces couples de valeurs

< s, o >sont obtenus par des tirages successifs d’un objetoselon le priorPO

M aS ître

|π

M aître

,

d’une consigne motricemselon le prototype moteur P(M

M aître

|[O

M aS ître

=o]π

M aître

), et d’un

stimulussselon le modèle de l’environnement PS |[M

M aître

=m]π

Env

.

Par souci d’efficacité, dans l’implémentation des algorithmes d’apprentissage qui vont suivre,

il est possible de faire l’économie des tirages intermédiaires en tirant directement des stimuli

s selon la distribution de probabilité PS |O

SM aître

que l’on peut précalculer une fois pour

toutes de la manière suivante :

PS |O

M aS ître

X

MM aître

PM

M aître

|O

SM aître

π

M aître

PS |M

M aître

π

Env

(4.2)

Ainsi, la branche auditive (le classifieur auditif) et la branche motrice (le modèle interne de

la transformation articulatori-acoustique et les répertoires moteurs) sont apprises à partir des

mêmes données, au sens où les entrées < s, o > de l’apprentissage sont obtenues de la même

manière : en tirant des stimuli sselon la même distribution de probabilité P(S |[O

M aS ître

=o])

qui a été calculée au préalable suivant l’équation 4.2.