4.3 Conclusion
5.1.2 Implémentation du modèle : COSMO 1D
Dans cette section, nous présentons les détails d’implémentation du modèle COSMO utilisé. Nous
commençons par décrire l’espace de définition des variables et la forme paramétrique des distributions
du modèle. Ensuite, nous décrivons comment sont initialisées les distributions du maître et de l’agent
apprenant. Pour terminer, nous explicitons les détails d’apprentissage de l’agent apprenant.
5.1.2.1 Implémentation des variables du modèle
Afin de pouvoir clairement observer le comportement des distributions au cours de
l’apprentis-sage, nous implémentons une version du modèle COSMO dans laquelle chaque variable est
unidi-mensionnelle, c’est pourquoi elle est nommée COSMO 1D.
Nous nous plaçons dans le cadre donné par la théorie quantique (Stevens, 1989; Stevens et Keyser,
2010) et imaginons un paramètre acoustique quelconque du son provenant du conduit vocal et un
pa-ramètre articulatoire de ce conduit vocal. Selon cette théorie, les contrastes phonétiques exploiteraient
des régions de l’espace dans lesquelles, lorsque le paramètre articulatoire varie, le paramètre
acous-tique est relativement stable dans une première portion de l’espace (notée I), puis varie brusquement
dans une seconde portion de l’espace (notée II) et enfin redevient à peu près stable dans une troisième
portion de l’espace (notée III). Tout ceci est schématisé sur la Fig. 5.1.
Dans ce contexte, nous supposons que les représentations sensorielles S du modèle COSMO
correspondent au paramètre acoustique et les représentations motricesMcorrespondent au paramètre
articulatoire. Ce sont toutes les deux des variables finies et discrétisées sur une dimension. On choisit
pour ces deux variables l’intervalle{−140; +140}avec un pas de discrétisation linéaire de 1 pour les
représenter. Ce choix est arbitraire, la seule contrainte est d’avoir un espace suffisamment précis pour
FIGURE5.1 – Schéma de la relation entre un paramètre acoustique et un paramètre articulatoire selon
la théorie quantique (Stevens, 1998, 2010)
pouvoir observer le comportement des distributions. De leur côté, les objetsOLetOScorrespondent à
deux catégories phonétiques quelconques, ce qui est suffisant pour faire de la catégorisation. On note
ainsiO
L={o
−, o
+}etO
S={o
−, o
+}. Pour finir, la variableCest, comme précisé dans le modèle
générique, une variable booléenne prenant comme valeur « vrai » (1) ou « faux » (0).
5.1.2.2 Implémentation des distributions du modèle
La distribution priorP(O
S) indiquant la fréquence des objets ne nous intéresse pas dans cette
étude. Pour cette raison, nous supposons que les deux objets considérés ont la même fréquence, ce qui
nous permet d’implémenter le priorP(OS)comme une distribution uniforme. Les répertoires moteur
P(M|O
S)et sensorielP(S|O
L)
1sont des ensembles de deux gaussiennes, une pour chaque objet.
Chaque gaussienne possède une moyenneµet un écart-typeσ. Comme nos espaces sensorielsS et
moteursM sont des espaces discrets et finis, les gaussiennes utilisées dans nos études ne sont en
réalité qu’une représentation discrétisée et tronquée des gaussiennes.
Illustrons-ceci avec un exemple : la distribution correspondant à l’objeto
+du répertoire moteur.
Elle se calcule ainsi :
Gauss(m) = 1
σ√2πe
−1 2(mσ−µ)2, (5.1)
P([M =m]|[O =o
+]) = PGauss(m)
MGauss . (5.2)
Ainsi, pour cette distribution, la probabilité de chaque pointmde l’espaceMdiscrétisé est
calcu-lée à l’aide de l’équation de la gaussienne (cf Eq. 5.1) puis l’ensemble de ces valeurs est, par la suite,
normalisé pour sommer à 1 (cf Eq. 5.2). Bien entendu, nous illustrons ce cas avec une unique
distribu-tion du répertoire moteur mais cela concerne aussi bien les deux distribudistribu-tions du répertoire moteur que
les deux distributions du répertoire sensoriel. Par la suite, pour simplifier la notation, nous nommons
toute distribution calculée ainsi « distribution gaussienne ». Ainsi, nous pouvons décrire le modèle
1. Rappelons que le classifieur auditifP(OL|S)est calculé à partir d’un répertoire sensorielP(S|OL). Nous ne nous focalisons donc, dans cette partie, que sur la description de ce répertoire sensoriel.interneP(S|M)comme, lui aussi, un ensemble de distributions gaussiennes. Il possède exactement
281 distributions gaussiennes, une pour chaque valeur demdans l’intervalle{−140; +140}.
Terminons avec la distributionP(C|O
SO
L). Quand la variableCvaut 1, les deux variablesO
SetOLsont connectées. C’est pourquoi, la probabilité de cette distribution vaut 1 si et seulement si les
deux objets sont égaux. En revanche, quandC n’est pas spécifié, les deux variablesO
SetO
Lsont
indépendantes (voir Gilet et al., 2011, pour plus de détails sur cette distribution).
5.1.2.3 Implémentation de l’environnement
Comme expliqué dans le chapitre précédent, l’apprentissage, tel qu’il est effectué, nécessite un
maître. Pour rappel, le maître est un agent COSMO pour lequel nous ne nous préoccupons que des
distributionsP(O
SM aitre)etP(M
M aitre|O
M aitreS)lui servant à produire des stimuli pour l’agent
ap-prenant. Afin que l’agent apprenant puisse se servir des productions du maître, nous avons également
besoin de transformer les représentations motrices en représentations sensorielles perçues par l’agent.
Ceci s’effectue par la transformation de la production du maître en stimulus perçu par l’agent, ce qui
est représenté par la distributionP(S
Env|M
Env).
Plus précisément, les variables du maître sont implémentées de la même manière que celles de
l’agent apprenant et représentent les mêmes informations. Ainsi,M
M aitreest, comme la variable
M, l’espace articulatoire fini et discret dans l’intervalle {−140; +140}. De son côté, O
M aitreSest,
comme O
S, un espace catégoriel prenant les deux valeurs{o
−, o
+}. Concernant ses distributions,
nous considérons, comme pour l’agent apprenant, que les deux objets ont la même fréquence
d’appari-tion. C’est pourquoiP(O
M aitreS)est, commeP(O
S), une distribution uniforme. Le répertoire moteur
P(M
M aitre|O
SM aitre)du maître est également implémenté de manière similaire à celui de l’agent
P(M |OS): il s’agit d’un ensemble de distributions gaussiennes telles qu’elles ont été définies
pré-cédemment (cf Eq. 5.1 et Eq. 5.2). Afin d’avoir des représentations motrices pour les deux objets bien
séparables, nous choisissons arbitrairement que la distribution gaussienneP(M
M aitre|[O
SM aitre=
o
−])a pour moyenneµ=−50, que la distribution gaussienneP(M
M aitre|[O
M aitreS=o
+])a pour
moyenneµ=−50et qu’elles ont toutes deux un écart-typeσ = 10.
Concernant la transformation de la réalisation motrice en signal sonore, comme précisé
précé-demment, nous simplifions les représentations telles que le signal acoustique S
Envest équivalent
aux représentations sensorielles S perçues par l’agent et la réalisation de la production M
Envest
équivalente aux représentions motrices M
M aitredu maître (pour rappel, voir Fig. 5.2, équivalente
à la Fig. 4.9 du chapitre précédent). De ce fait,S
EnvetM
Envcorrespondent également tous deux
à un espace fini et discret dans l’intervalle{−140; +140}. La transformation articulatori-acoustique
P(S
Env|M
Env) est, comme le modèle interne de l’agentP(S |M), un ensemble de 281
distri-butions gaussiennes, une pour chaque valeur demdans l’intervalle{−140; +140}. Les écart-types
de chaque distributions valentσ = 1 et symbolisent le bruit ambiant de l’environnement, supposé
faible ici. Les valeurs des moyennes demandent un peu plus de calcul. En effet, comme nous nous
plaçons dans le cadre donné par la théorie quantique (cf section 5.1.2.1), la transformation de la
pro-duction d’un geste articulatoirem du maître en un signal sonoresperçu par l’agent doit posséder
les caractéristiques évoquées dans cette théorie. Celle-ci ayant la forme d’une fonction sigmoïde (cf
Fig. 5.1), les moyennes de chaque distribution gaussienne deP(S
Env|M
Env)suivent donc une
fonc-tion sigmoïde,µ(m) =
b×tantan−−11((a×ba×m) ). Le point d’origine de cette sigmoïde a été fixé à 0. Dans nos
simulations, nous avons testé différentes valeurs de la pentea, allant du cas linéaire (atrès petit, en
l’occurrencea =0,01) au cas non linéaire « à la Stevens » (aplus élevé, en l’occurrence a=0,1).
La valeur de la bornebest égale à 120afin de ne pas être biaisé par les limites de notre intervalle,
qui sont à140. Cette implémentation nous permet ainsi de reproduire les trois phases supposées de la
théorie.
FIGURE 5.2 – Illustration de la production d’un son dans l’environnement par le maître. Les
distri-butions non détaillées du maître sont notées en pointillés. Les équivalences entre les variablesM et
M
Envd’une part etSetS
Envsont marquées par une double flèche
Durant l’apprentissage, chaque objetoest sélectionné par le maître l’un après l’autre. À chaque
itération, le maître produit un geste moteurm, relatif à l’objet sélectionnéo, qui est, par la suite,
trans-formé en signal sonoresdans l’environnement. Cela correspond à tirer un geste articulatoiremsur la
distributionP(M
M aitre|[O
M aitreS=o])puis de tirer un sonssur la distributionP(S
Env|[M
Env=
m]). Pour faciliter l’implémentation, nous réalisons en réalité un simple tirage sur la distribution
P(S
Env|O
M aitreS), calculée à l’avance :
P(S
Env|O
M aitreS) =X
MP(S
Env|M
Env)P(M
M aitre|O
M aitreS). (5.3)
Ainsi, lors de chaque itération, le maître choisit un objetopuis tire un signal sensorielsà l’aide de
la distributionP(S
Env|O
M aitreS). Durant cette étude, nous effectuons douze simulations qui ont pour
uniques différences les signaux sensorielsstirés à chaque itération dans P(S
Env|O
M aitreS). Cela
nous permet de vérifier la stabilité des simulations. À titre d’illustration, l’ensemble des distributions
composant cette équation sont représentées Fig. 5.3.
Bien que plusieurs valeurs de penteasoient testées pour définirP(S
Env|M
Env), nous illustrons,
dans tout ce qui suit, uniquement les résultats obtenus avec la valeur de aégale à 0,1, dans le cas
d’une transformation non-linéaire. En effet, les résultats s’avèrent être tout à fait semblables dans le
cas linéaire (voir Laurent et al., 2017, pour plus de détails).
FIGURE 5.3 – Résumé des distributions du maître et de l’environnement. Le répertoire moteur du
maître est représenté en bas à gauche (en rouge) et la transformation motrice-à-sensorielle est
repré-sentée en haut à gauche (en vert), pour les deux valeurs deatestées. Le résultat de ces deux processus
est donné par les deux distributions en haut à droite (en bleu)
5.1.2.4 Implémentation de l’apprentissage du modèle
À l’initialisation, avant apprentissage, nous supposons que l’agent a un état de connaissance
maxi-malement incertain dans ses distributions de probabilités. C’est pourquoi ses distributionsP(M|O
S),
P(S | O
L) et P(S |M) approximent des distributions uniformes. Nous représentons cela par des
moyennes situées au centre de l’espace et possédant un grand écart-type. Cela correspond, dans nos
intervalles[−140; +140], à une moyenneµ= 0et un écart-typeσ = 140.
Ensuite, dans chacune de ces simulations, nous effectuons les trois apprentissages précédemment
décrits dans le chapitre 3 : l’apprentissage sensoriel, durant lequel sont mis à jour les paramètres des
distributions gaussiennes deP(S|O
L), l’apprentissage sensorimoteur, durant lequel sont mis à jour
les paramètres des distributions gaussiennes deP(S |M) et l’apprentissage moteur, durant lequel
sont mis à jour les paramètres des distributions gaussiennes deP(M |OS). Dans cette version, afin
de faciliter leur comparaison, ces trois apprentissages sont appris en même temps et à partir des mêmes
données. Elles durent chacune 20 000 itérations.
5.1.2.5 Implémentation des décodeurs
Comme nous l’avons vu dans le chapitre 3, les trois familles de théories peuvent être analysées,
dans COSMO, à l’aide de trois décodeurs différents : le décodeur auditifP(O
L|S)pour les théories
auditives, le décodeur moteurP(OS |S)pour les théories motrices et le décodeur perceptuo-moteur
P(O
S|S[C= 1])pour les théories perceptuo-motrices.
Ce décodage nécessite quelques ajustements. En effet, nous souhaitons que, lors du décodage,
certaines portions de l’espace, ayant une très faible probabilité, ne soient pas décodées comme un objet
o
+ou o
−mais soit perçues comme des zones équiprobables entre les deux objets. C’est pourquoi,
afin de ne conserver que les portions de l’espace les plus représentatives de chaque catégorie, nous
définissons un seuil de probabilité. Au dessus de ce seuil, les deux objets sont reconnus, en dessous
de ce seuil, les deux objets sont équiprobables. Le seuil choisi pour cette étude vautse =
2811. Cette
valeur est la probabilité de la distribution uniforme de notre espace sensoriel discrétiséS.
En terme d’interprétation, il est possible d’imaginer ce seuil comme la présence d’une « catégorie
poubelle », non définie. En dessous de ce seuil, l’agent décode en réalité le son non pas commeo
+ouo
−, mais comme la catégorie poubelle. Cependant, comme il ne peut choisir qu’entreo
+ouo
−, il
sélectionne l’un ou l’autre, de façon équiprobable.
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 92-97)