• Aucun résultat trouvé

4.3 Conclusion

5.1.2 Implémentation du modèle : COSMO 1D

Dans cette section, nous présentons les détails d’implémentation du modèle COSMO utilisé. Nous

commençons par décrire l’espace de définition des variables et la forme paramétrique des distributions

du modèle. Ensuite, nous décrivons comment sont initialisées les distributions du maître et de l’agent

apprenant. Pour terminer, nous explicitons les détails d’apprentissage de l’agent apprenant.

5.1.2.1 Implémentation des variables du modèle

Afin de pouvoir clairement observer le comportement des distributions au cours de

l’apprentis-sage, nous implémentons une version du modèle COSMO dans laquelle chaque variable est

unidi-mensionnelle, c’est pourquoi elle est nommée COSMO 1D.

Nous nous plaçons dans le cadre donné par la théorie quantique (Stevens, 1989; Stevens et Keyser,

2010) et imaginons un paramètre acoustique quelconque du son provenant du conduit vocal et un

pa-ramètre articulatoire de ce conduit vocal. Selon cette théorie, les contrastes phonétiques exploiteraient

des régions de l’espace dans lesquelles, lorsque le paramètre articulatoire varie, le paramètre

acous-tique est relativement stable dans une première portion de l’espace (notée I), puis varie brusquement

dans une seconde portion de l’espace (notée II) et enfin redevient à peu près stable dans une troisième

portion de l’espace (notée III). Tout ceci est schématisé sur la Fig. 5.1.

Dans ce contexte, nous supposons que les représentations sensorielles S du modèle COSMO

correspondent au paramètre acoustique et les représentations motricesMcorrespondent au paramètre

articulatoire. Ce sont toutes les deux des variables finies et discrétisées sur une dimension. On choisit

pour ces deux variables l’intervalle{−140; +140}avec un pas de discrétisation linéaire de 1 pour les

représenter. Ce choix est arbitraire, la seule contrainte est d’avoir un espace suffisamment précis pour

FIGURE5.1 – Schéma de la relation entre un paramètre acoustique et un paramètre articulatoire selon

la théorie quantique (Stevens, 1998, 2010)

pouvoir observer le comportement des distributions. De leur côté, les objetsOLetOScorrespondent à

deux catégories phonétiques quelconques, ce qui est suffisant pour faire de la catégorisation. On note

ainsiO

L

={o

, o

+

}etO

S

={o

, o

+

}. Pour finir, la variableCest, comme précisé dans le modèle

générique, une variable booléenne prenant comme valeur « vrai » (1) ou « faux » (0).

5.1.2.2 Implémentation des distributions du modèle

La distribution priorP(O

S

) indiquant la fréquence des objets ne nous intéresse pas dans cette

étude. Pour cette raison, nous supposons que les deux objets considérés ont la même fréquence, ce qui

nous permet d’implémenter le priorP(OS)comme une distribution uniforme. Les répertoires moteur

P(M|O

S

)et sensorielP(S|O

L

)

1

sont des ensembles de deux gaussiennes, une pour chaque objet.

Chaque gaussienne possède une moyenneµet un écart-typeσ. Comme nos espaces sensorielsS et

moteursM sont des espaces discrets et finis, les gaussiennes utilisées dans nos études ne sont en

réalité qu’une représentation discrétisée et tronquée des gaussiennes.

Illustrons-ceci avec un exemple : la distribution correspondant à l’objeto

+

du répertoire moteur.

Elle se calcule ainsi :

Gauss(m) = 1

σe

1 2(mσµ)2

, (5.1)

P([M =m]|[O =o

+

]) = PGauss(m)

M

Gauss . (5.2)

Ainsi, pour cette distribution, la probabilité de chaque pointmde l’espaceMdiscrétisé est

calcu-lée à l’aide de l’équation de la gaussienne (cf Eq. 5.1) puis l’ensemble de ces valeurs est, par la suite,

normalisé pour sommer à 1 (cf Eq. 5.2). Bien entendu, nous illustrons ce cas avec une unique

distribu-tion du répertoire moteur mais cela concerne aussi bien les deux distribudistribu-tions du répertoire moteur que

les deux distributions du répertoire sensoriel. Par la suite, pour simplifier la notation, nous nommons

toute distribution calculée ainsi « distribution gaussienne ». Ainsi, nous pouvons décrire le modèle

1. Rappelons que le classifieur auditifP(OL|S)est calculé à partir d’un répertoire sensorielP(S|OL). Nous ne nous focalisons donc, dans cette partie, que sur la description de ce répertoire sensoriel.

interneP(S|M)comme, lui aussi, un ensemble de distributions gaussiennes. Il possède exactement

281 distributions gaussiennes, une pour chaque valeur demdans l’intervalle{−140; +140}.

Terminons avec la distributionP(C|O

S

O

L

). Quand la variableCvaut 1, les deux variablesO

S

etOLsont connectées. C’est pourquoi, la probabilité de cette distribution vaut 1 si et seulement si les

deux objets sont égaux. En revanche, quandC n’est pas spécifié, les deux variablesO

S

etO

L

sont

indépendantes (voir Gilet et al., 2011, pour plus de détails sur cette distribution).

5.1.2.3 Implémentation de l’environnement

Comme expliqué dans le chapitre précédent, l’apprentissage, tel qu’il est effectué, nécessite un

maître. Pour rappel, le maître est un agent COSMO pour lequel nous ne nous préoccupons que des

distributionsP(O

SM aitre

)etP(M

M aitre

|O

M aitreS

)lui servant à produire des stimuli pour l’agent

ap-prenant. Afin que l’agent apprenant puisse se servir des productions du maître, nous avons également

besoin de transformer les représentations motrices en représentations sensorielles perçues par l’agent.

Ceci s’effectue par la transformation de la production du maître en stimulus perçu par l’agent, ce qui

est représenté par la distributionP(S

Env

|M

Env

).

Plus précisément, les variables du maître sont implémentées de la même manière que celles de

l’agent apprenant et représentent les mêmes informations. Ainsi,M

M aitre

est, comme la variable

M, l’espace articulatoire fini et discret dans l’intervalle {−140; +140}. De son côté, O

M aitreS

est,

comme O

S, un espace catégoriel prenant les deux valeurs

{o

, o

+

}. Concernant ses distributions,

nous considérons, comme pour l’agent apprenant, que les deux objets ont la même fréquence

d’appari-tion. C’est pourquoiP(O

M aitreS

)est, commeP(O

S

), une distribution uniforme. Le répertoire moteur

P(M

M aitre

|O

SM aitre

)du maître est également implémenté de manière similaire à celui de l’agent

P(M |OS): il s’agit d’un ensemble de distributions gaussiennes telles qu’elles ont été définies

pré-cédemment (cf Eq. 5.1 et Eq. 5.2). Afin d’avoir des représentations motrices pour les deux objets bien

séparables, nous choisissons arbitrairement que la distribution gaussienneP(M

M aitre

|[O

SM aitre

=

o

])a pour moyenneµ=−50, que la distribution gaussienneP(M

M aitre

|[O

M aitreS

=o

+

])a pour

moyenneµ=−50et qu’elles ont toutes deux un écart-typeσ = 10.

Concernant la transformation de la réalisation motrice en signal sonore, comme précisé

précé-demment, nous simplifions les représentations telles que le signal acoustique S

Env

est équivalent

aux représentations sensorielles S perçues par l’agent et la réalisation de la production M

Env

est

équivalente aux représentions motrices M

M aitre

du maître (pour rappel, voir Fig. 5.2, équivalente

à la Fig. 4.9 du chapitre précédent). De ce fait,S

Env

etM

Env

correspondent également tous deux

à un espace fini et discret dans l’intervalle{−140; +140}. La transformation articulatori-acoustique

P(S

Env

|M

Env

) est, comme le modèle interne de l’agentP(S |M), un ensemble de 281

distri-butions gaussiennes, une pour chaque valeur demdans l’intervalle{−140; +140}. Les écart-types

de chaque distributions valentσ = 1 et symbolisent le bruit ambiant de l’environnement, supposé

faible ici. Les valeurs des moyennes demandent un peu plus de calcul. En effet, comme nous nous

plaçons dans le cadre donné par la théorie quantique (cf section 5.1.2.1), la transformation de la

pro-duction d’un geste articulatoirem du maître en un signal sonoresperçu par l’agent doit posséder

les caractéristiques évoquées dans cette théorie. Celle-ci ayant la forme d’une fonction sigmoïde (cf

Fig. 5.1), les moyennes de chaque distribution gaussienne deP(S

Env

|M

Env

)suivent donc une

fonc-tion sigmoïde,µ(m) =

b×tantan11((a×ba×m) )

. Le point d’origine de cette sigmoïde a été fixé à 0. Dans nos

simulations, nous avons testé différentes valeurs de la pentea, allant du cas linéaire (atrès petit, en

l’occurrencea =0,01) au cas non linéaire « à la Stevens » (aplus élevé, en l’occurrence a=0,1).

La valeur de la bornebest égale à 120afin de ne pas être biaisé par les limites de notre intervalle,

qui sont à140. Cette implémentation nous permet ainsi de reproduire les trois phases supposées de la

théorie.

FIGURE 5.2 – Illustration de la production d’un son dans l’environnement par le maître. Les

distri-butions non détaillées du maître sont notées en pointillés. Les équivalences entre les variablesM et

M

Env

d’une part etSetS

Env

sont marquées par une double flèche

Durant l’apprentissage, chaque objetoest sélectionné par le maître l’un après l’autre. À chaque

itération, le maître produit un geste moteurm, relatif à l’objet sélectionnéo, qui est, par la suite,

trans-formé en signal sonoresdans l’environnement. Cela correspond à tirer un geste articulatoiremsur la

distributionP(M

M aitre

|[O

M aitreS

=o])puis de tirer un sonssur la distributionP(S

Env

|[M

Env

=

m]). Pour faciliter l’implémentation, nous réalisons en réalité un simple tirage sur la distribution

P(S

Env

|O

M aitreS

), calculée à l’avance :

P(S

Env

|O

M aitreS

) =X

M

P(S

Env

|M

Env

)P(M

M aitre

|O

M aitreS

). (5.3)

Ainsi, lors de chaque itération, le maître choisit un objetopuis tire un signal sensorielsà l’aide de

la distributionP(S

Env

|O

M aitreS

). Durant cette étude, nous effectuons douze simulations qui ont pour

uniques différences les signaux sensorielsstirés à chaque itération dans P(S

Env

|O

M aitreS

). Cela

nous permet de vérifier la stabilité des simulations. À titre d’illustration, l’ensemble des distributions

composant cette équation sont représentées Fig. 5.3.

Bien que plusieurs valeurs de penteasoient testées pour définirP(S

Env

|M

Env

), nous illustrons,

dans tout ce qui suit, uniquement les résultats obtenus avec la valeur de aégale à 0,1, dans le cas

d’une transformation non-linéaire. En effet, les résultats s’avèrent être tout à fait semblables dans le

cas linéaire (voir Laurent et al., 2017, pour plus de détails).

FIGURE 5.3 – Résumé des distributions du maître et de l’environnement. Le répertoire moteur du

maître est représenté en bas à gauche (en rouge) et la transformation motrice-à-sensorielle est

repré-sentée en haut à gauche (en vert), pour les deux valeurs deatestées. Le résultat de ces deux processus

est donné par les deux distributions en haut à droite (en bleu)

5.1.2.4 Implémentation de l’apprentissage du modèle

À l’initialisation, avant apprentissage, nous supposons que l’agent a un état de connaissance

maxi-malement incertain dans ses distributions de probabilités. C’est pourquoi ses distributionsP(M|O

S

),

P(S | O

L

) et P(S |M) approximent des distributions uniformes. Nous représentons cela par des

moyennes situées au centre de l’espace et possédant un grand écart-type. Cela correspond, dans nos

intervalles[−140; +140], à une moyenneµ= 0et un écart-typeσ = 140.

Ensuite, dans chacune de ces simulations, nous effectuons les trois apprentissages précédemment

décrits dans le chapitre 3 : l’apprentissage sensoriel, durant lequel sont mis à jour les paramètres des

distributions gaussiennes deP(S|O

L

), l’apprentissage sensorimoteur, durant lequel sont mis à jour

les paramètres des distributions gaussiennes deP(S |M) et l’apprentissage moteur, durant lequel

sont mis à jour les paramètres des distributions gaussiennes deP(M |OS). Dans cette version, afin

de faciliter leur comparaison, ces trois apprentissages sont appris en même temps et à partir des mêmes

données. Elles durent chacune 20 000 itérations.

5.1.2.5 Implémentation des décodeurs

Comme nous l’avons vu dans le chapitre 3, les trois familles de théories peuvent être analysées,

dans COSMO, à l’aide de trois décodeurs différents : le décodeur auditifP(O

L

|S)pour les théories

auditives, le décodeur moteurP(OS |S)pour les théories motrices et le décodeur perceptuo-moteur

P(O

S

|S[C= 1])pour les théories perceptuo-motrices.

Ce décodage nécessite quelques ajustements. En effet, nous souhaitons que, lors du décodage,

certaines portions de l’espace, ayant une très faible probabilité, ne soient pas décodées comme un objet

o

+

ou o

mais soit perçues comme des zones équiprobables entre les deux objets. C’est pourquoi,

afin de ne conserver que les portions de l’espace les plus représentatives de chaque catégorie, nous

définissons un seuil de probabilité. Au dessus de ce seuil, les deux objets sont reconnus, en dessous

de ce seuil, les deux objets sont équiprobables. Le seuil choisi pour cette étude vautse =

2811

. Cette

valeur est la probabilité de la distribution uniforme de notre espace sensoriel discrétiséS.

En terme d’interprétation, il est possible d’imaginer ce seuil comme la présence d’une « catégorie

poubelle », non définie. En dessous de ce seuil, l’agent décode en réalité le son non pas commeo

+

ouo

, mais comme la catégorie poubelle. Cependant, comme il ne peut choisir qu’entreo

+

ouo

, il

sélectionne l’un ou l’autre, de façon équiprobable.