7.3 Apprentissage
7.3.2 L’apprentissage sensoriel
7.3.2.1 Description de l’apprentissage
L’apprentissage sensoriel concerne l’apprentissage de la branche auditive. Comme les autres
ap-prentissages, il s’effectue à l’aide du maître. Celui-ci produit des syllabes qui sont reçues par l’agent
sous forme de signaux acoustiques. Contrairement à COSMO, le maître ne fournit pas à l’agent les
unités correspondant aux signaux acoustiques. L’agent apprenant doit les inférer, ce qui constitue la
principale difficulté de cet apprentissage sensoriel.
Dans COSMO SylPhon, cet apprentissage est en réalité composé de trois sous-apprentissages
sen-soriels différents : un apprentissage sensoriel consonantique, un apprentissage sensoriel vocalique et
un apprentissage sensoriel syllabique. Dans chaque cas, il s’agit d’apprendre les répertoires auditifs
FIGURE7.5 – Représentation des consonnes des syllabes (gauche) et des voyelles (droite) dans
l’es-pace sensoriel, en Hz. Les syllabes sont affichées dans l’esl’es-pace : F2 en abscisse et F3 en ordonnée.
Les voyelles sont affichées dans l’espace : F2 en abscisse et F1 en ordonnée, les deux inversés de
manière à faire apparaître le triangle vocalique
respectifs et les priors des noyaux auditifs associés. Pour simplifier l’explication, nous commençons
par présenter l’apprentissage sensoriel de façon générale sans préciser s’il est consonantique,
voca-lique ou syllabique. Nous utilisons, pour cela, les variables génériquesS pour les représentations
auditives etNLpour les noyaux.
D’un point de vue computationnel, l’apprentissage des répertoires auditifsP(S|NL)et des priors
des objets auditifsP(N
L)est équivalent à un apprentissage itératif d’une mixture de gaussiennes. En
effet, en considérant les priorsP(NL)comme les poids associés à chaque noyau gaussien, la mixture
de gaussiennes correspondante s’écrit :
P(S) =X
NLP(NL)P(S|NL). (7.5)
Les étapes de l’apprentissage sont les suivantes :
1. L’agent apprenant reçoit le signal sensorielscorrespondant à la syllabe choisie par le maître.
Nous supposons que l’agent apprenant est capable de recevoir deux signaux sensoriels
séparé-ment : un correspondant à la partie consonantique de la syllabe et un correspondant à la partie
vocalique de la syllabes=< s
c,s
o>.
2. Il utilise le signal sensoriel pour inférer un noyau npouvant correspondre à ce signal s en
sélectionnant le noyau le plus probable de la distributionP(NL|[S=s]).
3. Il met à jour les paramètresµetΣ de la gaussienne du répertoire auditifP(S |[N
L= n])
avec le stimulussperçu et le prior concernéP(N
L)pour la valeurn.
À l’aide de ces étapes, détaillons plus précisément chaque apprentissage. Durant
l’apprentis-sage vocalique, l’agent n’utilise que le signalso pour inférer un noyaun
oà partir de la distribution
P(N
LO|[S
O= s
o]). Il met ensuite à jour les paramètres de sa distributionP(S
O|N
LO)et de son
priorP(N
LO). Durant l’apprentissage consonantique, l’agent n’utilise que le signal sc pour inférer
un noyau n
cà partir de la distribution P(N
LC| [SC = sc]). Il met ensuite à jour les paramètres
de sa distribution P(S
C| N
LC) et de son prior P(N
LC). Enfin, durant l’apprentissage syllabique,
l’agent utilise le signal sensorielsde la syllabe pour inférer un noyau n
sylà partir de la
distribu-tion P(N
LSyl| [S
CSyl= sc] [S
OSyl= so]). Il met ensuite à jour les paramètres de sa distribution
P(SCSO|N
LSyl)et de son priorP(N
LSyl).
Les inférences respectives calculées pour chaque apprentissage auditif sont :
P(N
LO|[S
O=s
o]) ∝ P(N
LO)P([S
O=s
o]|N
LO), (7.6)
P(N
LC|[S
C=s
c]) ∝ P(N
LC)P([S
C=s
c]|N
LC), (7.7)
P(N
LSyl|[S
CSyl=s
c] [S
OSyl=s
o]) ∝ P(N
LSyl)P([S
CSyl=s
c] [S
OSyl=s
o]|N
LSy). (7.8)
7.3.2.2 Détails sur l’apprentissage
L’apprentissage sensoriel est réalisé avec cinq agents apprenants différents, pour assurer la
robus-tesse des observations. Néanmoins, nous ne présentons par la suite que les résultats d’un unique agent.
Les résultats sont similaires pour les autres.
Chaque sous-apprentissage sensoriel dure 100 000 itérations. Bien que différents nombres de
noyaux ont été testés, nous montrons, par la suite, les résultats obtenus pournb
LO(du priorP(N
SO))
etnb
LC(du priorP(N
CS
)) à 20 et pournb
LSyl(du priorP(N
SSyl)) à 60.
Nous effectuons un enregistrement des paramètres à certaines valeurs au cours de l’apprentissage,
dix-neuf au total : beaucoup au début de l’apprentissage, puisque l’on suppose que l’agent varie
beau-coup à ce moment là, et de moins en moins par la suite, puisqu’il est supposé que l’agent se stabilise
et converge.
7.3.2.3 Analyse de l’apprentissage
Afin d’analyser la qualité de l’apprentissage, nous évaluons la distribution sensorielle de l’agent au
cours des trois sous-apprentissages. Dans le modèle, cette distribution correspond à la mixture de
gaus-siennesP(S)(respectivement vocaliqueP(S
O), consonantiqueP(S
C)et syllabiqueP(S
CSylS
OSyl)).
Dans un premier temps, nous comparons cette distributionP(S)à celle de l’environnement. Cette
dernière est calculée à partir du dictionnaire sensoriel de l’environnement (correspondant aux
produc-tions du maître) : l’ensemble des valeurs du dictionnaire est réparti dans un espace sensoriel similaire
à celui de l’agent afin d’obtenir deux distributions comparables l’une à l’autre. La comparaison
s’ef-fectue par la suite à travers le calcul de la divergence de Kullblack-Leibler (KL divergence) entre ces
deux distributions. Cette mesure, non symétrique, est définie par :
D
KL(P(A)||P(B)) =−X
iP(A(i))ln
P(B(i))
P(A(i))
. (7.9)
où A et B correspondent aux deux espaces différents à comparer. Dans notre cas, nous calculons
les deux divergences possibles : la KL divergence du maître par rapport à l’agent et celle de l’agent
par rapport au maître. Nous effectuons ensuite la moyenne des deux mesures afin d’obtenir la KL
divergence symétrique moyenne :
Dmean
KL(P(A)||P(B)) = 1
2D
KL(P(A)||P(B)) +
1
2D
KL(P(B)||P(A)). (7.10)
Elle est représentée, pour nos trois apprentissages sur la Fig. 7.6.
FIGURE7.6 – KL divergence moyenne pour les trois sous-apprentissages sensoriels à différents
mo-ments de l’apprentissage entre 0 et 100 000 itérations
Afin d’interpréter cette mesure, rappelons que lorsque la KL divergence atteint 0 cela signifie que
les deux distributions comparées sont identiques. Plus cette valeur est élevée, plus les distributions sont
différentes. Nous observons donc que lors de l’apprentissage, la KL divergence des trois distributions
diminue, ce qui signifie qu’elles ressemblent de plus en plus à celle du maître.
En termes de convergence, nous remarquons que les distributions phonémiques (vocalique et
consonantique) convergent vers une valeur proche de 0. Ainsi, ces deux distributions semblent très
similaires à celle du maître en fin d’apprentissage. La distribution syllabique, quant à elle, converge
aux alentours de 2. Elle semble donc moins similaire à celle du maître que les distributions
phoné-miques. Néanmoins, nous observons que cette valeur semble encore légèrement diminuer au cours
du temps, suggérant ainsi qu’elle peut correspondre davantage à celle de l’environnement si nous
continuons l’apprentissage.
Cette observation nous amène à comparer les vitesses d’apprentissage. Pour commencer, nous
no-tons que les trois distributions comparées n’ont pas la même valeur de KL divergence à l’initialisation,
témoin des ressemblances initiales avec l’environnement. De plus, la distribution syllabique étant dans
un espace à quatre dimensions (au lieu de deux pour les distributions phonémiques), il semble logique
qu’elle ait la valeur la plus élevée en début d’apprentissage.
La distribution consonantique est celle qui converge le plus rapidement. Cela s’explique par le fait
que la distribution consonantique du maître est plus étalée dans l’espace sensoriel et donc plus facile
à apprendre par l’ensemble des noyaux. Au contraire, la distribution vocalique se trouve davantage
concentrée dans des portions précises de l’espace, ce qui ralentit un peu la convergence. La distribution
syllabique étant à 4 dimensions, elle est logiquement la plus longue des trois à converger.
Après avoir comparé l’évolution globale des apprentissages, nous nous intéressons à leur
distri-butions en fin d’apprentissage et à la répartition des noyaux dans l’espace sensoriel. Pour cela, nous
étudions les noyaux les plus représentatifs. La méthode est la suivante : nous commençons par tirer
50 points pour chaque catégorie phonétique du dictionnaire sensoriel syllabique. Ensuite, pour
l’en-semble de ces points (en prenant soit le signal vocalique, soit le signal consonantique, soit le signal
syllabique), nous calculons le noyau gaussien le plus probable dans chaque distribution sensorielle de
l’agent (respectivement vocalique, consonantique et syllabique), c’est-à-dire le noyau le plus probable
dans la distributionP(N
L|[S = s]), pour chacune des 50 données sensorielless. Pour finir, nous
effectuons un tirage de cinq points sur la distribution gaussienne associée au noyau sélectionné. Cela
nous permet d’une part, d’avoir un aperçu des noyaux les plus représentatifs de l’environnement et
d’autre part, d’avoir un aperçu de la variance des noyaux sélectionnés. Tout ceci est illustré, pour un
agent, Fig. 7.7.
(a) Noyaux consonantiques (b) Noyaux vocaliques
(c) Noyaux syllabiques, consonnes (d) Noyaux syllabiques, voyelles
FIGURE7.7 – Illustration des noyaux tirés pour un agent en fin d’apprentissage pour les données de
l’environnement. Dans chaque figure, les points d’une même couleur correspondent à la même
distri-bution gaussienne. Ceux des deux distridistri-butions syllabiques correspondent aussi à la même distridistri-bution
gaussienne
Si nous comparons ces distributions à celles de l’environnement (voir Fig. 7.5), nous retrouvons
une forme globale similaire, ce qui est cohérent avec les faibles valeurs de la KL divergence
obser-vées précédemment en fin d’apprentissage. En ce qui concerne les distributions phonémiques
(conso-nantique, Fig. 7.7a, et vocalique, Fig. 7.7b), nous constatons que les noyaux sont répartis dans des
portions bien spécifiques de l’espace et qu’il n’y a aucun chevauchement apparent. La variance des
distributions gaussiennes vocaliques semble petite, ce qui augmente l’écart entre les noyaux
gaus-siens. Par ailleurs, nous remarquons que les noyaux gaussiens sont réparties globalement en suivant
la répartition des sept voyelles de l’environnement, ce qui montre que l’agent a réparti ses noyaux
gaussiens entre les voyelles. À l’inverse, les noyaux gaussiens consonantiques ne correspondent pas
chacun à une consonne. Plus frappant encore, les noyaux ne semblent pas correspondre à une
por-tion des consonnes, ni même aux syllabes. En effet, il n’y a pas assez de noyaux pour représenter
l’ensemble des syllabes et, de plus, un même noyau semble pouvoir correspondre à des consonnes
différentes. Cela vient du fait que les consonnes sont très difficiles à apprendre dans l’espace sensoriel
car elles correspondent à des domaines acoustiques complexes qui présentent même un certain niveau
de recouvrement (voir Fig. 7.5, gauche).
De son côté, la distribution syllabique possède non seulement plus de noyaux représentatifs que
les distributions phonémiques mais ceux-ci se superposent aussi bien dans l’espace consonantique que
dans l’espace vocalique. L’analyse directe est donc plus difficile. Il semble y avoir plusieurs noyaux
dans chaque portion de l’espace des voyelles et chacun d’eux correspond à une portion différente dans
l’espace consonantique. La distribution vocalique pourrait donc faciliter le découpage de l’espace
consonantique et permettre plus facilement de retrouver les syllabes. Dans une prochaine section,
nous observerons si cela est suffisant pour retrouver entièrement les syllabes du maître.
Pour finir, pour chaque distribution sensorielle, nous avons analysé la répartition des poids des
noyauxP(N
L)et la répartition globale des noyaux gaussiens dans les espaces sensoriels à travers la
distributionP(S|NL)en fin d’apprentissage. À titre d’illustration, nous représentons cela Fig. 7.8,
pour les voyelles.
(a)P(N
LO) (b)P(S
O|N
LO) (c)P(S
O)FIGURE7.8 – Illustration des distributions sensorielles. (a) Répartition des noyaux gaussiens sous la
forme d’un histogramme. (b) Répartition des distributions gaussiennes sous forme d’ellipses colorées
dans l’espace sensoriel F1/F2, en Barks. (c) Mixture de gaussiennes correspondant à la distribution
sensorielle de l’agent sous forme de courbes d’isoprobabilités. Pour ces deux dernières figures, les
moyennes des distributions gaussiennes sont affichée sous la forme d’une étoile rouge et la distribution
du maître est représentée, à titre de comparaison, sous la forme de points bleus.
De cette analyse, nous remarquons, dans un premier temps, que les noyaux ne sont pas tous appris.
En effet, en fin d’apprentissage, comme l’illustre la Fig. 7.8a, seule une partie des noyaux a été mise
à jour durant l’apprentissage et les autres ont une probabilité proche de zéro. Dans un second temps,
nous observons que les noyaux les plus appris sont disposés dans les portions adéquates de
l’environ-nement et possèdent une petite variance (voir, par exemple, Fig. 7.8c, les distributions centrées sur les
données du maître). À l’inverse, les distributions non apprises possèdent une grande variance et sont,
pour la plupart, en dehors des portions de l’espace de l’environnement.
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 165-171)