4.3 Conclusion
5.1.4 Résultats
5.1.4.1 Évolution de l’apprentissage
Commençons par observer l’évolution de l’apprentissage des simulations de notre modèle en
étu-diant l’entropie des branches auditive et motrice au cours de l’apprentissage (voir Fig. 5.5). Du fait que
les trois répertoires sont appris en même temps, nous avons superposé dans une même figure
l’évolu-tion de l’entropie de la branche auditive et de la branche motrice. L’analyse de cette évolul’évolu-tion permet
de surligner trois différences entre les branches auditives et motrice : la vitesse d’apprentissage, la
convergence et la variabilité.
FIGURE5.5 – Évolution des branches auditive et motrice au cours de l’apprentissage
Nous observons d’abord que les deux branches n’ont pas la même vitesse d’apprentissage. La
branche sensorielle converge très rapidement. En effet, il faut moins de 1 000 itérations pour qu’elle
atteigne son point de convergence. Au contraire, la branche motrice est beaucoup plus lente. Après
20 000 itérations, elle ne semble toujours pas avoir convergé puisque son entropie continue de
di-minuer. On peut alors supposer qu’il est beaucoup plus simple pour l’agent d’apprendre sa branche
sensorielle que sa branche motrice. Ce comportement semble logique puisque le répertoire sensoriel
est appris à partir d’un apprentissage supervisé tandis que le modèle interne et le répertoire moteur sont
tous deux appris par accommodation. Il faut donc un certain temps avant que l’agent apprenne, d’un
côté, à associer des représentations sensorielles perçues à des représentations motrices adéquates et,
d’un autre côté, qu’il apprenne à associer ses représentations motrices à la catégorie correspondante.
Concernant leur point de convergence respectif, nous remarquons que l’entropie de la branche
auditive converge vers celle du maître mais qu’elle conserve une erreur résiduelle. Le premier point
suggère que la branche auditive réussit à apprendre correctement les données du maître. Concernant
l’erreur résiduelle, elle s’explique par le fait que le répertoire sensoriel approxime les données d’une
catégorie du maître comme une gaussienne alors que la distribution sensorielle de l’environnement
P(S
Env|O
SM aitre) qu’il apprend n’est pas gaussienne. Du côté de la branche motrice, son entropie
est bien plus élevée que celle du maître et que celle de la branche auditive, ce qui suppose une
approxi-mation moins bonne que celle de la branche auditive. Le fait que l’entropie de la branche motrice soit
plus élevée, mais qu’elle continue sa décroissance tout au long de l’apprentissage, laisse par ailleurs
supposer qu’elle pourrait rejoindre l’entropie du maître si on prolongeait l’apprentissage. C’est en
effet le comportement attendu selon le théorème d’indistinguabilité.
La troisième différence concerne la variabilité. L’entropie de la branche auditive est très stable
d’une simulation à l’autre ce qui est cohérent avec le fait qu’elle approxime toujours très rapidement
l’entropie du maître. En revanche, l’entropie de la branche motrice est très variable. Il apparaît ainsi
que l’apprentissage moteur varie selon les simulations : certains agents arrivent à avoir des branches
motrices proches de la distribution sensorielle de l’environnement très rapidement tandis que d’autres
sont au contraire beaucoup moins précis et n’approximent que globalement la distribution du maître.
préci-sion, est une très bonne approximation des données du maître, et se focalise ainsi efficacement sur les
régions sensorielles adéquates dans l’espace d’apprentissage. L’apprentissage de la voie motrice, au
contraire, combinant les termes d’apprentissage sensorimoteur et moteur, fournit dans la majorité des
cas une approximation plus lente et moins précise des données du maître, explorant des régions plus
larges de l’espace sensoriel.
5.1.4.2 Comparaison des tâches de catégorisation
Nous comparons maintenant les trois décodeursP(OL |S),P(OS |S) etP(OS |S [C = 1])
à l’aide de la tâche de catégorisation définie en section 5.1.3.2. Les scores de reconnaissance des
catégories pour les trois décodeurs et pour différents niveaux de bruit sont présentés Fig. 5.6. Les trois
cases de cette figure correspondent à l’observation des résultats lorsque l’on arrête l’apprentissage à
trois moment différents : 500 itérations (c’est-à-dire pour un volume d’apprentissage encore faible
pour chacun des décodeurs), 2 000 itérations (à un moment où l’apprentissage sensoriel a convergé,
mais pas l’apprentissage moteur) et 20 000 itérations (pour lequel l’apprentissage moteur a, à peu
près, convergé). Nous étudions d’abord globalement les trois décodeurs avant de nous focaliser sur les
spécificités relatives aux trois moments sélectionnés.
FIGURE5.6 – Étude de la performance de catégorisation à différents niveaux d’apprentissage
Dans un premier temps, nous observons que, de manière globale, dans toutes les conditions, le
décodeur perceptuo-moteur donne de meilleurs performances que les deux autres décodeurs. Il semble
donc plus efficace de fusionner les décodeurs auditif et moteur que de les utiliser séparément. Nous
remarquons que le décodeur perceptuo-moteur est très vite performant. En effet, dès 500 itérations,
il catégorise parfaitement les deux objets (score de reconnaissance à 1). Cependant, la qualité de
catégorisation diminue avec le niveau de bruit. Ce résultat est concordant avec les résultats obtenus
dans la littérature (voir, par exemple, les études présentées section 3.1.1.2). Néanmoins, même avec un
niveau de bruit très élevé (10 fois l’écart-type du niveau de bruit normal), le score de reconnaissance
est au dessus du niveau du hasard (qui est à 0,5 puisqu’il y a deux objets).
Comparons maintenant les décodeurs auditif et moteur. Nous remarquons d’abord que le décodeur
auditif est meilleur que le décodeur moteur dans des conditions non bruitées. Dans ces conditions, il
est, comme le décodeur perceptuo-moteur, très rapidement performant, puisque son score de
recon-naissance est quasiment parfait dès 500 itérations. En revanche, dès qu’un peu de bruit est ajouté,
le score diminue drastiquement et est inférieur à 75% pour un bruit à 2. Par ailleurs, le score de
re-connaissance se stabilise par la suite quand le niveau de bruit augmente puisqu’il ne diminue que
d’environ 10 à 15% entre un bruit à 2 et un bruit à 10. Du côté du décodeur moteur, les scores dans
des conditions non bruitées sont moins bons que ceux du décodage sensoriel en début d’apprentissage
(environ 80% de reconnaissance) mais s’en rapprochent avec l’apprentissage : le score est quasiment
parfait à 20 000 itérations. Fait intéressant, quand du bruit est ajouté, les performances du décodeur
moteur diminuent, bien sûr, mais deviennent meilleures que celles du décodeur auditif.
Focalisons-nous maintenant quelques instants sur l’apprentissage. Entre 500 et 20 000 itérations,
nous observons finalement que le seul décodeur qui s’améliore significativement est le décodeur
mo-teur. Les deux autres ne semblent pas beaucoup évoluer (moins de 5% d’amélioration) mais ce
résul-tat est contrasté par le fait que dès 500 itérations, les décodeurs auditif et perceptuo-moteur semblent
avoir déjà de très bons scores de catégorisation, surtout dans des conditions non bruitées. Ce constat
est concordant avec le résultat que nous avons observé précédemment : la branche auditive converge
très rapidement vers une distribution sensorielle similaire à celle de l’environnement. De ce fait, le
décodeur auditif est, lui aussi, très rapidement très performant. En revanche, la branche motrice est
apprise beaucoup plus lentement, ce qui explique que les performances augmentent avec
l’apprentis-sage.
En fin d’apprentissage, nous observons d’abord que les scores des trois décodeurs sont tous les
trois parfaits ou presque, en l’absence de bruit. Ce résultat nous rapproche du théorème
d’indistinga-bilité dans lequel les représentations sensorielles et motrices sont identiques. Nous supposons que, si
nous augmentions davantage l’apprentissage, les branches sensorielles et motrices deviendraient
tota-lement indistinguables dans des conditions non bruitées et qu’elles fourniraient la même information.
Par ailleurs, dans des conditions bruitées, nous observons en fin d’apprentissage que les performances
du décodeur moteur sont, certes, toujours inférieures à celles du décodeur perceptuo-moteur mais en
sont très proches. Ainsi, à fort bruit, le décodeur sensoriel ne peut plus fonctionner utilement, et seul
le décodeur moteur est capable de pouvoir extraire des informations adéquates pour le décodage.
En résumé, la perception selon les théories auditives, que l’on modélise dans COSMO avec le
décodeur auditifP(OL |S), obtient des scores quasi-parfaits dans des conditions non bruitées mais
ses performances diminuent très rapidement et fortement (de plus de 25 % pour un bruit à 2) dès que
le niveau de bruit augmente. En parallèle, la perception selon les théories motrices, que l’on modélise
dans COSMO avec le décodeur moteurP(OS |S), bien qu’elle soit de plus en plus performante au
cours de l’apprentissage, est moins efficace que le décodeur auditif dans des conditions non bruitées.
La tendance s’inverse dès que du bruit est ajouté puisque nous observons que ses scores de
reconnais-sance dépassent ceux du décodeur auditif. Dans tous les cas, les scores sont les plus élevés quand les
deux décodeurs sont fusionnés à travers le décodeur perceptuo-moteur.
5.1.4.3 Interprétation des résultats
Avant de discuter de la relation entre ces résultats et ceux de la littérature, il est important de
mieux les comprendre. Notre question principale est : pourquoi le décodeur auditif est meilleur dans
des conditions non bruitées et pourquoi le décodeur moteur est meilleur dans des conditions bruitées ?
Pour cela, nous sommes retournés étudier le système perceptif, notamment les deux branches auditive
P(S | O
L) et motriceP(S |O
S), que nous avons précédemment définies en section 5.1.3.1 (voir
Eq. 5.4 et Eq. 5.5). Pour chacune de ces branches, nous avons étudié leurs distributions respectives
à 2 000 itérations, quand elles sont parfaitement distinguables l’une de l’autre. Nous avons ensuite
analysé leur décodage quand elles reçoivent un stimulus bruité et non bruité. Le résultat est schématisé
Fig. 5.7.
FIGURE 5.7 – Schéma illustrant le comportement des branches auditive (Haut, en bleu) et motrice
(Bas, en rouge). Pour chaque branche, observation des résultats de perception pour un stimulus bruité
(Gauche, trait vert) et non bruité (Droite, trait rose)
Commençons par la branche auditiveP(S |O
L). Du fait que cette branche est un reflet du
ré-pertoire auditif, nous observons que les distributions sont gaussiennes. De plus, comme nous l’avons
déjà suggéré précédemment en étudiant l’entropie, elles sont une très bonne approximation de la
dis-tribution de l’environnementP(S
Env|O
SM aitre). Ainsi, même si les distributions du maître ne sont
pas gaussiennes, les prototypes sont centrés au même endroit et leurs variances respectives sont
éga-lement très proches. Comme le confirme l’entropie, nous en déduisons que la branche auditive est une
distribution approximant de manière très précise les données reçues de son environnement. De ce fait,
nous observons que lorsqu’elle reçoit un stimulus non bruité, c’est-à-dire correspondant à un stimulus
de l’environnement proche du prototype appris, le décodage est parfait (Fig. 5.7 en haut à droite). En
revanche, quand elle reçoit un stimulus très bruité, c’est-à-dire un stimulus ne correspondant pas à
ceux qu’elle a appris durant son apprentissage, le décodage est proche du hasard (Fig. 5.7 en haut à
gauche). Cela vient du fait que le stimulus bruité sort de la couverture de la distribution gaussienne,
et rentre dans une région pour laquelle la probabilité de chaque classe passe en dessous du seuil que
nous avons défini pour le processus de catégorisation (voir section 5.1.2.5).
Passons à la branche motriceP(S|OS). Contrairement à la distributionP(S|OL), il s’agit d’une
distribution non gaussienne, puisqu’elle est une somme de produits des distributionsP(M |O
S)et
P(S |M). On pourrait donc s’attendre à ce qu’elle approxime mieux les données du maître.
Ce-pendant, comme nous l’avons déjà suggéré en étudiant l’entropie, elle est une approximation plus
grossière des stimuli du maître. En effet, même si elle est également centrée sur les prototypes du
maître, sa variance est plus grande, ce qui donne une distribution plus aplatie que son homologue
au-ditif. Cela vient du fait que son apprentissage est plus lent et qu’elle converge moins efficacement vers
la distribution des stimuli de l’apprentissage. Du fait de cette grande variance, nous observons que,
lorsqu’elle reçoit un stimulus non bruité, le décodage est très bon mais pas totalement parfait (Fig. 5.7
en bas à droite). En revanche, quand elle reçoit un stimulus très bruité, le décodage est globalement
performant ou, du moins, l’objet correspondant au stimulus bruité est reconnu dans la majorité des cas
(Fig. 5.7 en bas à gauche). Nous en déduisons que la grande variance des distributions de la branche
motrice permet de catégoriser les stimuli différant de ceux appris durant l’apprentissage.
Cette grande variance est liée au processus d’exploration sensorimotrice qui accompagne le
pro-cessus d’apprentissage sensorimoteur et moteur, qui, rappelons-le, n’est pas supervisé par le maître,
puisqu’il ne fournit aucune information motrice. De plus, dans cette étude, du fait que
l’apprentis-sage sensorimoteur et moteur sont appris en même temps, l’exploration est davantage accentuée
puis-qu’au début de l’apprentissage, l’agent, n’ayant ni de connaissances sur son répertoire moteur, ni de
connaissance sur son modèle interne, commence par associer de mauvaises représentations motrices
aux catégories fournies par le maître. Bien entendu, cet effet diminue lorsque l’agent commence à
apprendre son modèle interne. Malgré ces contraintes, le processus d’exploration a tout de même un
avantage puisqu’il permet à l’agent de tester des régions sensorielles et motrices non prototypiques.
Ceci pénalise la réponse à des stimuli typiques, mais facilite l’identification de stimuli atypiques.
Ainsi, nous pouvons conclure que ce sont les différences de variances qui sont à l’origine des
dif-férences de performance entre les deux branches perceptives. La branche auditive est plus performante
dans des conditions non bruitées car elle possède des distributions de petite variance, piquées sur les
signaux non bruités, tandis que la branche motrice est plus performante dans le bruit car elle
pos-sède des distributions de plus grande variance, plus étalées dans l’espace, capables de reconnaître des
signaux éloignés des signaux prototypiques. Pour conclure, la branche auditive semble agir comme
une « bande étroite » alors que la branche motrice semble agir comme une « bande large ». C’est ce
que nous nommons, pour synthétiser, la propriété « bande étroite/bande large » (dans nos publications
récentes en anglais, « auditory narrow motor wide »).
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 99-104)