• Aucun résultat trouvé

7.3 Apprentissage

7.3.2 L’apprentissage sensoriel

7.3.2.1 Description de l’apprentissage

L’apprentissage sensoriel concerne l’apprentissage de la branche auditive. Comme les autres

ap-prentissages, il s’effectue à l’aide du maître. Celui-ci produit des syllabes qui sont reçues par l’agent

sous forme de signaux acoustiques. Contrairement à COSMO, le maître ne fournit pas à l’agent les

unités correspondant aux signaux acoustiques. L’agent apprenant doit les inférer, ce qui constitue la

principale difficulté de cet apprentissage sensoriel.

Dans COSMO SylPhon, cet apprentissage est en réalité composé de trois sous-apprentissages

sen-soriels différents : un apprentissage sensoriel consonantique, un apprentissage sensoriel vocalique et

un apprentissage sensoriel syllabique. Dans chaque cas, il s’agit d’apprendre les répertoires auditifs

FIGURE7.5 – Représentation des consonnes des syllabes (gauche) et des voyelles (droite) dans

l’es-pace sensoriel, en Hz. Les syllabes sont affichées dans l’esl’es-pace : F2 en abscisse et F3 en ordonnée.

Les voyelles sont affichées dans l’espace : F2 en abscisse et F1 en ordonnée, les deux inversés de

manière à faire apparaître le triangle vocalique

respectifs et les priors des noyaux auditifs associés. Pour simplifier l’explication, nous commençons

par présenter l’apprentissage sensoriel de façon générale sans préciser s’il est consonantique,

voca-lique ou syllabique. Nous utilisons, pour cela, les variables génériquesS pour les représentations

auditives etNLpour les noyaux.

D’un point de vue computationnel, l’apprentissage des répertoires auditifsP(S|NL)et des priors

des objets auditifsP(N

L

)est équivalent à un apprentissage itératif d’une mixture de gaussiennes. En

effet, en considérant les priorsP(NL)comme les poids associés à chaque noyau gaussien, la mixture

de gaussiennes correspondante s’écrit :

P(S) =X

NL

P(NL)P(S|NL). (7.5)

Les étapes de l’apprentissage sont les suivantes :

1. L’agent apprenant reçoit le signal sensorielscorrespondant à la syllabe choisie par le maître.

Nous supposons que l’agent apprenant est capable de recevoir deux signaux sensoriels

séparé-ment : un correspondant à la partie consonantique de la syllabe et un correspondant à la partie

vocalique de la syllabes=< s

c

,s

o

>.

2. Il utilise le signal sensoriel pour inférer un noyau npouvant correspondre à ce signal s en

sélectionnant le noyau le plus probable de la distributionP(NL|[S=s]).

3. Il met à jour les paramètresµetΣ de la gaussienne du répertoire auditifP(S |[N

L

= n])

avec le stimulussperçu et le prior concernéP(N

L

)pour la valeurn.

À l’aide de ces étapes, détaillons plus précisément chaque apprentissage. Durant

l’apprentis-sage vocalique, l’agent n’utilise que le signalso pour inférer un noyaun

o

à partir de la distribution

P(N

LO

|[S

O

= s

o

]). Il met ensuite à jour les paramètres de sa distributionP(S

O

|N

LO

)et de son

priorP(N

LO

). Durant l’apprentissage consonantique, l’agent n’utilise que le signal sc pour inférer

un noyau n

c

à partir de la distribution P(N

LC

| [SC = sc]). Il met ensuite à jour les paramètres

de sa distribution P(S

C

| N

LC

) et de son prior P(N

LC

). Enfin, durant l’apprentissage syllabique,

l’agent utilise le signal sensorielsde la syllabe pour inférer un noyau n

syl

à partir de la

distribu-tion P(N

LSyl

| [S

CSyl

= sc] [S

OSyl

= so]). Il met ensuite à jour les paramètres de sa distribution

P(SCSO|N

LSyl

)et de son priorP(N

LSyl

).

Les inférences respectives calculées pour chaque apprentissage auditif sont :

P(N

LO

|[S

O

=s

o

]) ∝ P(N

LO

)P([S

O

=s

o

]|N

LO

), (7.6)

P(N

LC

|[S

C

=s

c

]) ∝ P(N

LC

)P([S

C

=s

c

]|N

LC

), (7.7)

P(N

LSyl

|[S

CSyl

=s

c

] [S

OSyl

=s

o

]) ∝ P(N

LSyl

)P([S

CSyl

=s

c

] [S

OSyl

=s

o

]|N

LSy

). (7.8)

7.3.2.2 Détails sur l’apprentissage

L’apprentissage sensoriel est réalisé avec cinq agents apprenants différents, pour assurer la

robus-tesse des observations. Néanmoins, nous ne présentons par la suite que les résultats d’un unique agent.

Les résultats sont similaires pour les autres.

Chaque sous-apprentissage sensoriel dure 100 000 itérations. Bien que différents nombres de

noyaux ont été testés, nous montrons, par la suite, les résultats obtenus pournb

LO

(du priorP(N

SO

))

etnb

LC

(du priorP(N

C

S

)) à 20 et pournb

LSyl

(du priorP(N

SSyl

)) à 60.

Nous effectuons un enregistrement des paramètres à certaines valeurs au cours de l’apprentissage,

dix-neuf au total : beaucoup au début de l’apprentissage, puisque l’on suppose que l’agent varie

beau-coup à ce moment là, et de moins en moins par la suite, puisqu’il est supposé que l’agent se stabilise

et converge.

7.3.2.3 Analyse de l’apprentissage

Afin d’analyser la qualité de l’apprentissage, nous évaluons la distribution sensorielle de l’agent au

cours des trois sous-apprentissages. Dans le modèle, cette distribution correspond à la mixture de

gaus-siennesP(S)(respectivement vocaliqueP(S

O

), consonantiqueP(S

C

)et syllabiqueP(S

CSyl

S

OSyl

)).

Dans un premier temps, nous comparons cette distributionP(S)à celle de l’environnement. Cette

dernière est calculée à partir du dictionnaire sensoriel de l’environnement (correspondant aux

produc-tions du maître) : l’ensemble des valeurs du dictionnaire est réparti dans un espace sensoriel similaire

à celui de l’agent afin d’obtenir deux distributions comparables l’une à l’autre. La comparaison

s’ef-fectue par la suite à travers le calcul de la divergence de Kullblack-Leibler (KL divergence) entre ces

deux distributions. Cette mesure, non symétrique, est définie par :

D

KL

(P(A)||P(B)) =−X

i

P(A(i))ln

P(B(i))

P(A(i))

. (7.9)

où A et B correspondent aux deux espaces différents à comparer. Dans notre cas, nous calculons

les deux divergences possibles : la KL divergence du maître par rapport à l’agent et celle de l’agent

par rapport au maître. Nous effectuons ensuite la moyenne des deux mesures afin d’obtenir la KL

divergence symétrique moyenne :

Dmean

KL

(P(A)||P(B)) = 1

2D

KL

(P(A)||P(B)) +

1

2D

KL

(P(B)||P(A)). (7.10)

Elle est représentée, pour nos trois apprentissages sur la Fig. 7.6.

FIGURE7.6 – KL divergence moyenne pour les trois sous-apprentissages sensoriels à différents

mo-ments de l’apprentissage entre 0 et 100 000 itérations

Afin d’interpréter cette mesure, rappelons que lorsque la KL divergence atteint 0 cela signifie que

les deux distributions comparées sont identiques. Plus cette valeur est élevée, plus les distributions sont

différentes. Nous observons donc que lors de l’apprentissage, la KL divergence des trois distributions

diminue, ce qui signifie qu’elles ressemblent de plus en plus à celle du maître.

En termes de convergence, nous remarquons que les distributions phonémiques (vocalique et

consonantique) convergent vers une valeur proche de 0. Ainsi, ces deux distributions semblent très

similaires à celle du maître en fin d’apprentissage. La distribution syllabique, quant à elle, converge

aux alentours de 2. Elle semble donc moins similaire à celle du maître que les distributions

phoné-miques. Néanmoins, nous observons que cette valeur semble encore légèrement diminuer au cours

du temps, suggérant ainsi qu’elle peut correspondre davantage à celle de l’environnement si nous

continuons l’apprentissage.

Cette observation nous amène à comparer les vitesses d’apprentissage. Pour commencer, nous

no-tons que les trois distributions comparées n’ont pas la même valeur de KL divergence à l’initialisation,

témoin des ressemblances initiales avec l’environnement. De plus, la distribution syllabique étant dans

un espace à quatre dimensions (au lieu de deux pour les distributions phonémiques), il semble logique

qu’elle ait la valeur la plus élevée en début d’apprentissage.

La distribution consonantique est celle qui converge le plus rapidement. Cela s’explique par le fait

que la distribution consonantique du maître est plus étalée dans l’espace sensoriel et donc plus facile

à apprendre par l’ensemble des noyaux. Au contraire, la distribution vocalique se trouve davantage

concentrée dans des portions précises de l’espace, ce qui ralentit un peu la convergence. La distribution

syllabique étant à 4 dimensions, elle est logiquement la plus longue des trois à converger.

Après avoir comparé l’évolution globale des apprentissages, nous nous intéressons à leur

distri-butions en fin d’apprentissage et à la répartition des noyaux dans l’espace sensoriel. Pour cela, nous

étudions les noyaux les plus représentatifs. La méthode est la suivante : nous commençons par tirer

50 points pour chaque catégorie phonétique du dictionnaire sensoriel syllabique. Ensuite, pour

l’en-semble de ces points (en prenant soit le signal vocalique, soit le signal consonantique, soit le signal

syllabique), nous calculons le noyau gaussien le plus probable dans chaque distribution sensorielle de

l’agent (respectivement vocalique, consonantique et syllabique), c’est-à-dire le noyau le plus probable

dans la distributionP(N

L

|[S = s]), pour chacune des 50 données sensorielless. Pour finir, nous

effectuons un tirage de cinq points sur la distribution gaussienne associée au noyau sélectionné. Cela

nous permet d’une part, d’avoir un aperçu des noyaux les plus représentatifs de l’environnement et

d’autre part, d’avoir un aperçu de la variance des noyaux sélectionnés. Tout ceci est illustré, pour un

agent, Fig. 7.7.

(a) Noyaux consonantiques (b) Noyaux vocaliques

(c) Noyaux syllabiques, consonnes (d) Noyaux syllabiques, voyelles

FIGURE7.7 – Illustration des noyaux tirés pour un agent en fin d’apprentissage pour les données de

l’environnement. Dans chaque figure, les points d’une même couleur correspondent à la même

distri-bution gaussienne. Ceux des deux distridistri-butions syllabiques correspondent aussi à la même distridistri-bution

gaussienne

Si nous comparons ces distributions à celles de l’environnement (voir Fig. 7.5), nous retrouvons

une forme globale similaire, ce qui est cohérent avec les faibles valeurs de la KL divergence

obser-vées précédemment en fin d’apprentissage. En ce qui concerne les distributions phonémiques

(conso-nantique, Fig. 7.7a, et vocalique, Fig. 7.7b), nous constatons que les noyaux sont répartis dans des

portions bien spécifiques de l’espace et qu’il n’y a aucun chevauchement apparent. La variance des

distributions gaussiennes vocaliques semble petite, ce qui augmente l’écart entre les noyaux

gaus-siens. Par ailleurs, nous remarquons que les noyaux gaussiens sont réparties globalement en suivant

la répartition des sept voyelles de l’environnement, ce qui montre que l’agent a réparti ses noyaux

gaussiens entre les voyelles. À l’inverse, les noyaux gaussiens consonantiques ne correspondent pas

chacun à une consonne. Plus frappant encore, les noyaux ne semblent pas correspondre à une

por-tion des consonnes, ni même aux syllabes. En effet, il n’y a pas assez de noyaux pour représenter

l’ensemble des syllabes et, de plus, un même noyau semble pouvoir correspondre à des consonnes

différentes. Cela vient du fait que les consonnes sont très difficiles à apprendre dans l’espace sensoriel

car elles correspondent à des domaines acoustiques complexes qui présentent même un certain niveau

de recouvrement (voir Fig. 7.5, gauche).

De son côté, la distribution syllabique possède non seulement plus de noyaux représentatifs que

les distributions phonémiques mais ceux-ci se superposent aussi bien dans l’espace consonantique que

dans l’espace vocalique. L’analyse directe est donc plus difficile. Il semble y avoir plusieurs noyaux

dans chaque portion de l’espace des voyelles et chacun d’eux correspond à une portion différente dans

l’espace consonantique. La distribution vocalique pourrait donc faciliter le découpage de l’espace

consonantique et permettre plus facilement de retrouver les syllabes. Dans une prochaine section,

nous observerons si cela est suffisant pour retrouver entièrement les syllabes du maître.

Pour finir, pour chaque distribution sensorielle, nous avons analysé la répartition des poids des

noyauxP(N

L

)et la répartition globale des noyaux gaussiens dans les espaces sensoriels à travers la

distributionP(S|NL)en fin d’apprentissage. À titre d’illustration, nous représentons cela Fig. 7.8,

pour les voyelles.

(a)P(N

LO

) (b)P(S

O

|N

LO

) (c)P(S

O)

FIGURE7.8 – Illustration des distributions sensorielles. (a) Répartition des noyaux gaussiens sous la

forme d’un histogramme. (b) Répartition des distributions gaussiennes sous forme d’ellipses colorées

dans l’espace sensoriel F1/F2, en Barks. (c) Mixture de gaussiennes correspondant à la distribution

sensorielle de l’agent sous forme de courbes d’isoprobabilités. Pour ces deux dernières figures, les

moyennes des distributions gaussiennes sont affichée sous la forme d’une étoile rouge et la distribution

du maître est représentée, à titre de comparaison, sous la forme de points bleus.

De cette analyse, nous remarquons, dans un premier temps, que les noyaux ne sont pas tous appris.

En effet, en fin d’apprentissage, comme l’illustre la Fig. 7.8a, seule une partie des noyaux a été mise

à jour durant l’apprentissage et les autres ont une probabilité proche de zéro. Dans un second temps,

nous observons que les noyaux les plus appris sont disposés dans les portions adéquates de

l’environ-nement et possèdent une petite variance (voir, par exemple, Fig. 7.8c, les distributions centrées sur les

données du maître). À l’inverse, les distributions non apprises possèdent une grande variance et sont,

pour la plupart, en dehors des portions de l’espace de l’environnement.