Illustrations de la convergence de l’algorithme

2.4 Apprentissage du système sensori-moteur par accomodation

Ag) apprises.

Illustrations de la convergence de l’algorithme

2.4 Apprentissage du système sensori-moteur par accomodation

2.4.3 Illustrations de la convergence de l’algorithme

Pour pouvoir analyser la convergence de l’algorithme, il convient de se doter de mesures

quan-titatives dont l’évolution au cours de l’apprentissage nous renseigne sur ce qui est appris par

l’agent au fur et à mesure de ses interactions avec le maître. C’est dans ce but que nous nous

intéressons à l’évolution de l’entropie des distributions de probabilité qui représentent les

mo-dèles internes de l’agent. Étant donnée une variable aléatoire discrète X ayant n réalisations

x

possibles, l’entropie H de P(X) mesurée en bits est alors définie de la manière suivante :

H(P(X)) =−

X

P(X=x

) log

(P(X=x

)) .

Intuitivement, la correspondance entre entropie et quantité d’information nous permet de

mesurer quantitativement ce qui est appris par l’agent au cours de l’apprentissage. La figure 6.3

montre l’évolution de l’entropie H(P(S

S

| π

)) des modèles internes de l’agent au cours

de l’apprentissage.

Figure 6.3: Évolution de l’entropieH(P(S

S

| π

)) des modèles internes de l’agent au

cours de l’apprentissage.

Au début de l’apprentissage, l’entropie a une valeur élevée, ce qui caractérise le fait que

l’agent n’a encore rien appris. L’information stockée dans son modèle interne est alors très

proche de distributions de probabilités uniformes : les gaussiennes dégénérées que nous utilisons

pour l’initialisation. Lors des premières itérations de l’algorithme d’apprentissage, l’entropie

diminue fortement : chaque nouvelle observation des conséquences de la réalisation d’une

com-mande motrice apporte de l’information nouvelle à l’agent qui s’en sert pour mettre à jour

son modèle interne. Au fur et à mesure que l’agent afine son modèle interne, il choisit de

plus en plus fréquemment des gestes moteurs lui permettant de bien reproduire les cibles de

syllabes proposées par le maître. Mais, comme il connaît déjà bien les conséquences de ces

gestes-là, ces productions lui apportent de moins en moins d’information supplémentaire. En

fin d’apprentissage, l’entropie est donc presque complètement stable, mais peut éventuellement

diminuer un peu lorsque l’agent choisit pour imiter le maître un geste moteur qui a une faible

probabilité de permettre d’atteindre la cible, et que la réalisation de ce geste procure à l’agent

une nouvelle information.

La figure 6.3, qui montre l’évolution de l’entropie H(P(S

S

|π

)) des modèles internes

de l’agent au cours de l’apprentissage, donne donc une mesure globale de ce qui est appris par

l’agent. La valeur initiale de 15,7 est à comparer avec l’entropie de la distribution de probabilité

uniforme qui sert à l’initialisation. Étant données les tailles de nos espaces, l’entropie d’une

distribution de probabilité uniforme définie partout serait de log2(16×33×33×14) = 17,9.

Mais, dans notre cas, la distribution de probabilité P(S

S

| π

) n’est définie que sur les

espaces acoustiques maximaux (qui sont introduits au chapitre 5, et apparraissent en gris sur

les figures 6.11 et 6.12), ce qui explique la valeur initiale de 15,7. En fin d’apprentissage, la

valeur de 14,75 est plus difficile à interpréter : elle dépend des connaissances accumulées dans

toutes les distributions de probabilité du modèle interne de l’agent. Pour donner une idée, une

configuration volontairement caricaturale, qui se traduirait par le même écart observé d’environ

1 par rapport à l’entropie de la distribution de probabilité uniforme sur notre espace (15,7),

serait le cas où l’agent a parfaitement appris la transformation articulatori-acoustique sur la

moitié de l’espace (avec des distributions de probabilité de type Dirac, d’entropie nulle) et ne

saurait rien sur la seconde moitié de l’espace (distributions de probabilité uniformes, d’entropie

15,7−log2(2) = 14,7).

L’entropie H(P(S

S

|π

)) fournit donc une mesure globale, qui nous permet de nous

assurer de la convergence de l’apprentissage, mais qui est difficile à interpréter finement. C’est

pourquoi nous proposons maintenant d’illustrer plus en détails ce qui est appris au niveau du

modèle interne de l’agent pour la transformation articulatori-acoustique des voyelles. Il s’agit du

termeP(S

|M

π

) de la distribution de probabilité conjointe du modèle, qui est constitué

d’autant de distributions de probabilitéP(S

| [M

=m

] π

) qu’il y a de valeursm