• Aucun résultat trouvé

7.3 Apprentissage

7.3.4 Apprentissage moteur

7.3.4.1 Description de l’apprentissage

L’apprentissage moteur concerne l’apprentissage de la branche motrice. Dans COSMO SylPhon,

cela concerne l’apprentissage des répertoires moteurs et des priors sur les noyaux moteurs. Il est en ce

sens très proche de l’apprentissage sensoriel. Il est également composé de trois sous-apprentissages :

un apprentissage moteur consonantique, un apprentissage moteur vocalique et un apprentissage

mo-teur syllabique. Nous le présentons, comme pour l’apprentissage sensoriel, de façon globale en nous

servant des variables génériquesN

S

pour les noyaux moteurs, S

M

pour les représentations

senso-rielles,M pour les représentations motrices liées au représentations sensorielles,MN pour les

repré-sentations motrices liées aux noyaux etλ

M

pour la variable de cohérence liant les deux représentations

motrices.

Comme l’agent apprend les répertoires moteursP(MN |NS) et leur prior associéP(NS), cet

apprentissage peut être assimilé à l’apprentissage d’une mixture de gaussiennes tel que :

P(MN) =X

NS

P(NS)P(MN |NS). (7.13)

L’apprentissage moteur se fait par accommodation. Les étapes sont les suivantes :

1. L’agent apprenant reçoit le signal sensorielscorrespondant à la syllabe choisie par le maître,

constitué du couple< sc, so>.

2. Il sélectionne une représentation motricemgrâce à un tirage sur la distributionP(M |[S

M

=

s])calculée par inférence.

3. L’agent infère le noyau n correspondant à la représentation motrice m en sélectionnant le

noyau le plus probable dansP(N

S

|[M =m] [λ

M

= 1]).

4. L’agent met à jour la moyenne et la variance de sa distributionP(M

N

|[N

S

= n]) avec le

paramètremet le prior concernéP(NS)pour la valeurn.

Précisons maintenant les trois sous-apprentissages. Durant l’apprentissage vocalique, l’agent

n’uti-lise que le signals

o

pour inférer une représentation motricem

o

à partir de la distributionP(M

O

|

[S

OM

=so]). Ensuite, il infère un noyaun

o

, par inférence surP(N

SO

|[MO=mo] [λ

OM O

= 1]). Pour

finir, il met à jour les paramètres de sa distributionP(MN O|N

SO

)et de son priorP(N

SO

).

Durant l’apprentissage consonantique, l’agent utilise les deux signauxs

o

ets

c. Pour faciliter les

calculs, il infère d’abord une représentation motricem

o

à partir de la distributionP(M

O

|[S

M

O

=s

o

])

puis un gestemc à partir de la distributionP(MC |[S

CM

= sc][MO = mo]). Cela évite de devoir

calculerP(M

C

|[S

CM

=s

c

] [S

OM

= s

o

]), ce qui est computationnellement plus coûteux. Ensuite, il

infère un noyaun

c

à partir de la distributionP(N

SC

|[MC =mc] [MO =mo] [λ

CM C

= 1] [λ

OM O

= 1]).

Pour finir, il met à jour les paramètres de sa distributionP(∆M |N

SC

)et de son priorP(N

SC

).

Durant l’apprentissage syllabique, l’agent utilise le signal sensorielsde la syllabe pour inférer une

représentation motrice< m

c

, m

o

>à partir de la distributionP(M

C

M

O

|[S

M

C

= s

c

] [S

M

O

=s

o

]).

Ensuite, il infère un noyaun

syl

à partir de la distributionP(N

SSyl

|[MC =mc] [MO =mo][λ

SylM C

=

1] [λ

SylM O

= 1]). Pour finir, il met à jour les paramètres de sa distributionP(∆M

Syl

M

N OSyl

|N

SSyl

)et

de son priorP(N

SSyl

).

Les inférences correspondantes, non déjà explicitées, sont les suivantes :

P(M

C

M

O

|[S

CM

=s

c

] [S

OM

=s

o

]) (7.14)

∝ P(M

O

)P([S

OM

=s

o

]|M

O

)P(M

C

|M

O

])P([S

CM

=s

c

]|M

C

),

P(N

SO

|[M

O

=m

o

] [λ

OM O

= 1]) (7.15)

∝ P(N

SO

)P([M

N O

=mo]|N

SO

),

P(N

SC

|[MC =mc] [MO =mo] [λ

CM C

= 1] [λ

OM O

= 1]) (7.16)

∝ P(N

SC

)P([∆M =mc−mo]|N

SC

),

P(N

SSyl

|[M

C

=m

c

] [M

O

=m

o

] [λ

SylM C

= 1] [λ

SylM O

= 1]) (7.17)

∝ (N

SSyl

)P([MN O =mo]

Syl

[∆M

Syl

=mc−mo]|N

SSyl

).

7.3.4.2 Détails sur l’apprentissage

Dans ses détails d’implémentation, l’apprentissage moteur est assez proche de l’apprentissage

sensoriel. Il est donc réalisé lui-aussi avec cinq agents apprenants différents mais nous ne présentons

que les résultats d’un unique agent.

L’apprentissage moteur est réalisé après l’apprentissage sensorimoteur. Chaque étape de

l’ap-prentissage moteur étant assez longue computationnellement, chaque sous-apl’ap-prentissage ne dure que

50 000 itérations. Nous illustrons les résultats obtenus pournb

SO

(du priorP(N

SO

)) etnb

SC

(du prior

P(N

SC

)) à 50 et pournb

SSyl

(du priorP(N

SSyl

)) à 60.

Nous effectuons un enregistrement des paramètres à certaines valeurs au cours de l’apprentissage,

dix-sept au total : beaucoup au début de l’apprentissage et de moins en moins par la suite.

7.3.4.3 Analyse de l’apprentissage

Afin d’analyser la qualité d’apprentissage des trois sous-apprentissages moteurs, nous souhaitons

comparer les distributionsP(M)de l’agent avec celles de l’environnement. Cependant,

l’apprentis-sage moteur permet d’apprendre des distributions motrices et non pas des distributions sensorielles.

Nous étudions donc, non pas les distributions motrices directement, mais leur transformation

audi-tive après production. Pour réaliser cette transformation, nous utilisons les dictionnaires calculés avec

VLAM. Nous obtenons ainsi trois distributions P(S) que nous comparons avec la distribution de

l’environnement.

Pour commencer, nous calculons, comme lors de l’apprentissage sensoriel, la KL divergence

moyenne (voir Eq. 7.10) entre la distributionP(S)de l’agent et celle de l’environnement. Celle-ci

est représentée Fig. 7.10.

Nous observons que les trois sous-apprentissages convergent tous très rapidement, en moins de

1 000 itérations. Cela montre que grâce à l’apprentissage sensorimoteur, déjà appris, les

distribu-tions motrices peuvent se stabiliser très rapidement. Cependant, elles conservent une erreur non

né-FIGURE7.10 – Évolution de la KL divergence moyenne au cours du temps entre la distribution motrice

de l’agent après production et la distribution sensorielle de l’environnement

gligeable : environ 4 pour les phonèmes et environ 8 pour les syllabes, cette différence pouvant

s’ex-pliquer par la différence de dimensions entre les espaces phonémiques et syllabiques. Ainsi, même si

l’apprentissage se fait très rapidement, les distributions motrices convergent vers une distribution qui

ne semble pas totalement similaire à celle de l’environnement.

Pour mieux appréhender si ces distributions permettent de reproduire les données de

l’environ-nement, nous les examinons dans l’espace sensoriel en fin d’apprentissage. Afin de ne pas observer

uniquement la distribution globale mais aussi les distributions gaussiennes composant cette

distri-bution, nous calculons, comme lors de l’analyse de l’apprentissage sensoriel, les noyaux gaussiens

les plus représentatifs des données de l’environnement. Pour ce faire, nous inférons d’abord, à l’aide

des modèles internes, les représentations motrices les plus probables correspondant aux données

sen-sorielles de l’environnement. Ensuite, nous déterminons les noyaux moteurs les plus probables pour

chaque représentation motrice. Enfin, nous produisons cette représentation motrice, ce qui nous donne

un point dans l’espace sensoriel. L’ensemble des points obtenus pour un agent pour chacun des

sous-apprentissage est illustré Fig. 7.11.

Globalement, ces figures illustrent le fait que les distributions de l’environnement sont, dans

leur forme, bien reproduites (voir Fig. 7.5 pour comparaison) et que cela nécessite l’utilisation d’un

nombre de noyaux assez conséquent. Par ailleurs, la distribution phonémique semble une nouvelle

fois regrouper ces noyaux selon les voyelles de l’environnement. Néanmoins, nous remarquons que

plusiseurs noyaux semblent utilisés pour la même catégorie. Il est plus difficile de juger si c’est le cas

pour les branches consonantique et syllabique car les distributions gaussiennes se chevauchent dans

la plupart des portions de l’espace sensoriel.

Nous souhaitons voir si ce chevauchement observé dans l’espace sensoriel se retrouve également

dans l’espace moteur, notamment pour les consonnes. Pour cela, nous analysons les distributions

gaussiennes directement dans l’espace moteur∆M. Elles sont difficile à illustrer du fait que

l’es-pace consonantique est à cinq dimensions. C’est pourquoi nous projetons cet esl’es-pace dans des plans,

dans lesquels nous affichons les distributions gaussiennes dont les noyaux sont les plus probables (de

probabilité supérieure à 0,01). À titre d’exemple, nous montrons Fig. 7.12 le résultat obtenu pour un

agent pour les dimensionsT D,LHetApex.

(a) Noyaux consonantiques (b) Noyaux vocaliques

(c) Noyaux syllabiques, consonnes (d) Noyaux syllabiques, voyelles

FIGURE 7.11 – Illustration des noyaux obtenus pour un agent en fin d’apprentissage correspondant

aux données de l’environnement. Dans chaque figure, les points d’une même couleur correspondent

à la même distribution gaussienne. Ceux des deux distributions syllabiques correspondent aussi à la

même distribution gaussienne

Le choix des trois dimensionsT D,LH etApexn’est pas anodin puisque nous attendons que ce

soit dans ces dimensions qu’apparaissent les invariants consonantiques. En effet, pour rappel,

l’hy-pothèse de départ est que la plosive [b] est associée à un mouvement des lèvres (LH), la plosive [d]

à un mouvement de la pointe de la langue (Apex) et la plosive [g] à un mouvement du dos de la

langue (T D). Nous avons initialisé les distributions gaussiennes en position de repos (0), de façon à

ce qu’elles aient une grande variance sur la dimensionJ awet parmi une des dimensionsT B,T D,

LHouApexet une petite variance sur les autres dimensions. Nous souhaitons en ce sens influencer

l’agent apprenant, en début d’apprentissage, à ne bouger qu’un unique articulateur, en plus de la

mâ-choire, et par la suite, évaluer sa capacité à maintenir ce fonctionnement pour reproduire les données

du maître

La Fig. 7.12 nous permet de faire deux observations. Premièrement, les noyaux ont conservé le

bootstrap initial : ils ne présentent une grande variance que sur une des trois dimensions observées.

Les distributions ont une petite variance et sont centrées sur 0, c’est-à-dire en position de repos, sur

les autres dimensions. Ainsi, l’agent semble avoir réussi à apprendre les invariants consonantiques

comme nous le souhaitions. Deuxièmement, nous observons que chaque dimension possède plusieurs

noyaux, ce qui signifie que pour un agent, une même consonne est représentée par plusieurs noyaux.

Le point remarquable est que, bien que les distributions gaussiennes consonantiques de l’agent se

chevauchent dans l’espace sensoriel, les distributions sont séparables dans l’espace moteur.

FIGURE7.12 – Illustration des distributions gaussiennes consonantiques dans les dimensionsT D,LH

etApexde l’espace moteur∆M. Chaque ellipse d’une même couleur représente la même distribution

gaussienne