• Aucun résultat trouvé

7.2 Description du modèle

7.2.4 Implémentation

Le modèle étant défini, nous décrivons maintenant plus en détail comment les variables et

distri-butions sont implémentées dans nos simulations.

7.2.4.1 Les variables

Nous décrivons l’implémentation des variables en les regroupant par variables de même famille.

Il y en a quatre dans le modèle : les noyauxN, les représentations motricesM et∆M, les

représen-tations sensoriellesSet les variables de cohérenceCetλ.

Les noyaux Nous nous intéressons à trois sortes d’unités distinctives : les voyelles, les consonnes

et les syllabes. Les voyelles considérées sont les mêmes que celles du chapitre 5 : [a i u e E o O].

Les consonnes considérées sont les plosives [b d g]. Nous supposons, arbitrairement, que ces plosives

sont voisées mais, comme le modèle articulatoire VLAM ne permet pas de manipuler le paramètre de

voisement, nous aurions pu sans distinction considérer qu’il s’agit de leurs homologues non voisés [p

t k] qui ont essentiellement les mêmes propriétés que [b d g] en termes de trajectoires formantiques.

Nous considérons donc les 21 syllabes CV [ba da ga bi di gi bu du gu be de ge bE dE gE bo do go bO

dO gO].

Comme nous n’avons pas de réel critère pour définir le nombre de noyaux, la seule contrainte

que nous nous sommes donnés est que le modèle contient plus de noyaux que d’unités distinctives à

apprendre. Nous notons respectivement :nbSC etnbLCle nombre de noyaux pour les consonnes dans

N

SC

et N

LC

, supérieur à 3, nb

SO

etnb

LO

, le nombre de noyaux pour les voyelles dansN

SO

etN

LO

,

supérieur à 7, etnb

SSyl

etnb

LSyl

le nombre de noyaux pour les syllabes dansN

SSyl

etN

LSyl

, supérieur

à 21.

Les représentations motrices Celles-ci sont, comme dans COSMO, des configurations

articula-toires des articulateurs du modèle articulatoire VLAM. Comme dans COSMO-Voyelle, nous gardons

trois paramètres articulatoires pour représenter les gestes moteurs vocaliquesMOetM

OSyl

: la hauteur

des lèvres (LH), le corps de la langue (T B) et le dos de la langue (T D). Ces trois paramètres ne sont

pas suffisants pour représenter les consonnes plosives considérées. C’est pourquoi nous considérons

deux autres paramètres de VLAM qui sont : la pointe de la langue (Apex), qui est notamment

néces-saire pour représenter les plosives [d] et la mâchoire (Jaw) qui est le support de toutes les articulations

consonantiques. Nous obtenons donc des espaces moteurs vocaliques à trois dimensions (ou cinq

di-mensions en considérant Jaw et Apex à 0, leur valeur de repos) et des espaces moteurs consonantiques

à cinq dimensions.

Comme précédemment, les représentations motrices sont des ensembles finis et discrétisés. Les

espaces∆M (resp.∆M

Syl

) se calculent directement à partir des valeurs des espaces consonantiques

M

N C

et vocaliques M

N O. Ainsi, les valeurs de l’espace

∆M s’obtiennent en calculant ∆M =

M

N C

−M

N O

et celles de l’espace∆M

Syl

s’obtiennent en calculant∆M

Syl

=M

N CSyl

−M

N OSyl

. Pour

les autres dimensions motrices, en s’inspirant du modèle COSMO-V, les valeurs des paramètres sont

contenues dans l’intervalle[−5,+5]et chaque dimension est discrétisée en 15 cases. Les variables des

espaces moteurs vocaliquesM

O,

M

N O

etM

N OSyl

contiennent donc 3 375 valeurs, considérées

équi-probables selon les priors uniformesP(MO), comme dans le chapitre précédent, et celles des espaces

moteurs consonantiquesM

C

,M

N C

etM

N CSyl

contiennent 759 375 cases.

Le nombre de cases pour les espaces moteurs consonantiques nous semble trop conséquent,

sur-tout lorsque nous implémentons le modèle interne. Or, tous les points de l’espace ne représentent pas

une plosive (voir section 7.1.2.1). En effet, certaines configurations conduisent à un conduit vocal

ou-vert qui représente une voyelle et non une consonne plosive. D’autres, au contraire, conduisent à une

fermeture totale du conduit vocal qui ne permet pas de calculer la résultante acoustique. C’est

pour-quoi nous avons réalisé un travail préalable sur cet espace pour ne conserver que les configurations

consonantiques telles que nous les définissons. Plus spécifiquement, nous n’avons conservé que les

cases, parmi les 759 375 cases de l’espace, qui possèdent au moins une configuration correspondant

à une ouverture relative, c’est-à-dire une aire de la constriction, entre 0,05 et 0,07cm

2

(calculée avec

VLAM). En effectuant ce test pour chaque case, par un tirage aléatoire de dix configurations, nous

n’avons conservé que 187 547 cases, considérées équiprobables selon les priors uniformesP(MC).

Les représentations auditives Elles sont, comme dans COSMO-Voyelle, caractérisées par des

pa-ramètres formantiques, dont l’unité de mesure est le Bark. Comme précédemment, les variables

sen-sorielles vocaliquesS

O

etS

OSyl

sont décrites par les formants F1 et F2. Comme l’agent doit apprendre

les mêmes sept voyelles que dans le chapitre précédent, nous savons que ces deux formants sont

suffi-sants pour les caractériser. Pour les variables sensorielles consonantiquesS

C

etS

CSyl

, nous choisissons

de les caractériser via les formants F2 et F3. Ces deux formants semblent suffisants pour caractériser

les plosives du français (voir par exemple Laurent et al., 2017). Ainsi, nous obtenons des espaces

sensoriels vocaliques et consonantiques bidimensionnels.

Les variables sensorielles sont finies et discrétisées. Nous discrétisons chaque dimension en 25

cases. Le formant F1 est défini dans l’intervalle[2,3 ; 7,1]Barks, le formant F2 (pour les variables

sensorielles vocaliques et consonantiques) est défini dans l’intervalle[4,7 ; 13,8]Barks et le formant

F3 est défini dans l’intervalle[12,8 ; 16,5]Barks. La discrétisation dans chacun de ces intervalles est

faite de manière linéaire.

Les variables de cohérence Toutes les variables de cohérence, aussi bien les variablesCque les

va-riablesλ, sont définies de la même manière que dans COSMO. Il s’agit donc de variables booléennes

prenant les valeurs « vrai » (1) ou « faux » (0).

7.2.4.2 Les distributions de probabilité

Pour décrire comment sont implémentées les distributions, nous reprenons les six catégories que

nous avons utilisées précédemment en section 7.2.3. Comme l’implémentationdes systèmes de

cohé-renceetdes dépendances consonantiquesne diffère pas de leur définition générale, décrite ci-dessus,

nous nous concentrons sur les quatre autres.

Les priors sur les noyaux Les priors sur les noyaux sont des distributions contenant le même

nombre de valeurs que les noyaux qu’elles caractérisent : nbSC pour P(N

SC

), nbLC pour P(N

LC

),

nb

SO

pourP(N

SO

),nb

LO

pourP(O

OL

),nb

SSyl

pourP(N

SSyl

) etnb

LSyl

pourP(N

LSyl

). Ces

distri-butions suivent une loi de succession de Laplace. Plus précisément, elles se définissent à partir d’une

forme initiale uniforme, qui évoluent ensuite à la manière d’un histogramme, en incrémentant les

cases observées (chaque fois qu’un noyau est sélectionné dans l’apprentissage, son nombre

d’obser-vations est augmenté de 1). Ainsi, en notantobs

n

le nombre d’observations du noyau nd’une des

distribution prior de la formeP(N)qui porte surKnoyaux, nous avons :

P([N =n]) = 1 +obs

n

K+P

N

obs

n

. (7.4)

Les répertoires moteurs Comme dans nos études précédentes, les répertoires moteurs sont des

ensembles de distributions gaussiennes tronquées et discrétisées, paramétrées par une moyenne µ

et une matrice de covarianceΣ (cf Eq.5.11). Pour chaque répertoire moteur, il y a autant de

distri-butions gaussiennes que de noyaux. Il y a doncnb

SC

distributions gaussiennes dans le répertoire

P(∆M |N

SC

),nbSO distributions gaussiennes dans le répertoireP(MN O|N

SO

)etnbSSyl

distribu-tions gaussiennes dans le répertoireP(∆M

Syl

M

N OSyl

|N

SSyl

).

Les répertoires auditifs Comme les répertoires moteurs, les répertoires auditifs sont, une nouvelle

fois, des ensembles de distributions gaussiennes tronquées et discrétisées. Il y a également autant de

distributions gaussiennes que de noyaux pour chaque répertoire auditif, c’est-à-direnb

LC

distribu-tions gaussiennes dans le répertoireP(S

C

|N

LC

),nb

LO

distributions gaussiennes dans le répertoire

P(SO|N

LO

)etnbLSyldistributions gaussiennes dans le répertoireP(S

CSyl

S

OSyl

|N

LSyl

).

Les modèles internes Ce sont eux aussi des ensembles de distributions gaussiennes tronquées et

discrétisées. Ils possèdent une distribution gaussienne pour chaque configuration motrice considérée.

Il y a donc 3 375 distributions gaussiennes pour le modèle interne vocaliqueP(S

OM

|MO)et 187 547

distributions gaussiennes pour le modèle interne consonantiqueP(S

CM

|MC).

7.2.4.3 L’initialisation

Au début de l’apprentissage, comme dans COSMO, nous supposons que les ensembles de

gaus-siennes (répertoires auditifs, répertoires moteurs et modèles internes) approximent des distributions

uniformes. Pour cela, nous considérons que leurs moyennes µsont regroupées au centre de leurs

es-paces respectifs et que les valeurs diagonales des matrices de covariancesΣsont élevées (environ la

taille de l’espace).

Les deux exceptions à cette initialisation des répertoires sont le répertoire moteur consonantique et

le répertoire moteur syllabique. En effet, rappelons que nous souhaitons que le passage d’une

configu-ration articulatoire consonantique à une configuconfigu-ration articulatoire vocalique s’effectue à l’aide d’un

geste simple, impliquant le mouvement d’un articulateur principal, caractéristique de la consonne.

Nous ne souhaitons pas, comme dans COSMO-S, implémenter cette contrainte directement. Nous

souhaitons évaluer si l’agent est capable de l’apprendre sans produire de configurations

consonan-tiques aberrantes cognitivement. Pour ce faire, nous l’implémentons comme une « amorce » : nous

supposons que le répertoire consonantique (resp. la partie consonantique du répertoire syllabique)

possède initialement des gaussiennes positionnées à 0 (valeur de repos) avec une grande variance sur

un des articulateurs consonantiques TD, LH ou Apex et une petite variance sur les trois articulateurs

restants. Elles ont également une grande variance sur Jaw, que nous considérons comme l’articulateur

commun entre toutes les consonnes. Cette initialisation est une forme d’implémentation du calendrier

développemental de la théorie Frame then Content : au départ les gestes du babillage sont

stéréoty-pés autour de l’articulateur porteur, la mâchoire, et d’un articulateur spécifique. La question posée

est de savoir si, au cours de l’apprentissage, l’agent parviendra à maintenir ces coordinations et à

sélectionner les coordinations adéquates pour chaque consonne.

Contrairement à COSMO, les priors des objets nécessitent également une initialisation. Au début

d’apprentissage, il n’y a aucune observation. Le paramètreobs

n

vaut donc 0 (voir Eq. 7.4). Ainsi, Les

priors sont, comme les ensembles de gaussiennes, uniformes en début d’apprentissage.