7.2 Description du modèle
7.2.4 Implémentation
Le modèle étant défini, nous décrivons maintenant plus en détail comment les variables et
distri-butions sont implémentées dans nos simulations.
7.2.4.1 Les variables
Nous décrivons l’implémentation des variables en les regroupant par variables de même famille.
Il y en a quatre dans le modèle : les noyauxN, les représentations motricesM et∆M, les
représen-tations sensoriellesSet les variables de cohérenceCetλ.
Les noyaux Nous nous intéressons à trois sortes d’unités distinctives : les voyelles, les consonnes
et les syllabes. Les voyelles considérées sont les mêmes que celles du chapitre 5 : [a i u e E o O].
Les consonnes considérées sont les plosives [b d g]. Nous supposons, arbitrairement, que ces plosives
sont voisées mais, comme le modèle articulatoire VLAM ne permet pas de manipuler le paramètre de
voisement, nous aurions pu sans distinction considérer qu’il s’agit de leurs homologues non voisés [p
t k] qui ont essentiellement les mêmes propriétés que [b d g] en termes de trajectoires formantiques.
Nous considérons donc les 21 syllabes CV [ba da ga bi di gi bu du gu be de ge bE dE gE bo do go bO
dO gO].
Comme nous n’avons pas de réel critère pour définir le nombre de noyaux, la seule contrainte
que nous nous sommes donnés est que le modèle contient plus de noyaux que d’unités distinctives à
apprendre. Nous notons respectivement :nbSC etnbLCle nombre de noyaux pour les consonnes dans
N
SCet N
LC, supérieur à 3, nb
SOetnb
LO, le nombre de noyaux pour les voyelles dansN
SOetN
LO,
supérieur à 7, etnb
SSyletnb
LSylle nombre de noyaux pour les syllabes dansN
SSyletN
LSyl, supérieur
à 21.
Les représentations motrices Celles-ci sont, comme dans COSMO, des configurations
articula-toires des articulateurs du modèle articulatoire VLAM. Comme dans COSMO-Voyelle, nous gardons
trois paramètres articulatoires pour représenter les gestes moteurs vocaliquesMOetM
OSyl: la hauteur
des lèvres (LH), le corps de la langue (T B) et le dos de la langue (T D). Ces trois paramètres ne sont
pas suffisants pour représenter les consonnes plosives considérées. C’est pourquoi nous considérons
deux autres paramètres de VLAM qui sont : la pointe de la langue (Apex), qui est notamment
néces-saire pour représenter les plosives [d] et la mâchoire (Jaw) qui est le support de toutes les articulations
consonantiques. Nous obtenons donc des espaces moteurs vocaliques à trois dimensions (ou cinq
di-mensions en considérant Jaw et Apex à 0, leur valeur de repos) et des espaces moteurs consonantiques
à cinq dimensions.
Comme précédemment, les représentations motrices sont des ensembles finis et discrétisés. Les
espaces∆M (resp.∆M
Syl) se calculent directement à partir des valeurs des espaces consonantiques
M
N Cet vocaliques M
N O. Ainsi, les valeurs de l’espace∆M s’obtiennent en calculant ∆M =
M
N C−M
N Oet celles de l’espace∆M
Syls’obtiennent en calculant∆M
Syl=M
N CSyl−M
N OSyl. Pour
les autres dimensions motrices, en s’inspirant du modèle COSMO-V, les valeurs des paramètres sont
contenues dans l’intervalle[−5,+5]et chaque dimension est discrétisée en 15 cases. Les variables des
espaces moteurs vocaliquesM
O,M
N OetM
N OSylcontiennent donc 3 375 valeurs, considérées
équi-probables selon les priors uniformesP(MO), comme dans le chapitre précédent, et celles des espaces
moteurs consonantiquesM
C,M
N CetM
N CSylcontiennent 759 375 cases.
Le nombre de cases pour les espaces moteurs consonantiques nous semble trop conséquent,
sur-tout lorsque nous implémentons le modèle interne. Or, tous les points de l’espace ne représentent pas
une plosive (voir section 7.1.2.1). En effet, certaines configurations conduisent à un conduit vocal
ou-vert qui représente une voyelle et non une consonne plosive. D’autres, au contraire, conduisent à une
fermeture totale du conduit vocal qui ne permet pas de calculer la résultante acoustique. C’est
pour-quoi nous avons réalisé un travail préalable sur cet espace pour ne conserver que les configurations
consonantiques telles que nous les définissons. Plus spécifiquement, nous n’avons conservé que les
cases, parmi les 759 375 cases de l’espace, qui possèdent au moins une configuration correspondant
à une ouverture relative, c’est-à-dire une aire de la constriction, entre 0,05 et 0,07cm
2(calculée avec
VLAM). En effectuant ce test pour chaque case, par un tirage aléatoire de dix configurations, nous
n’avons conservé que 187 547 cases, considérées équiprobables selon les priors uniformesP(MC).
Les représentations auditives Elles sont, comme dans COSMO-Voyelle, caractérisées par des
pa-ramètres formantiques, dont l’unité de mesure est le Bark. Comme précédemment, les variables
sen-sorielles vocaliquesS
OetS
OSylsont décrites par les formants F1 et F2. Comme l’agent doit apprendre
les mêmes sept voyelles que dans le chapitre précédent, nous savons que ces deux formants sont
suffi-sants pour les caractériser. Pour les variables sensorielles consonantiquesS
CetS
CSyl, nous choisissons
de les caractériser via les formants F2 et F3. Ces deux formants semblent suffisants pour caractériser
les plosives du français (voir par exemple Laurent et al., 2017). Ainsi, nous obtenons des espaces
sensoriels vocaliques et consonantiques bidimensionnels.
Les variables sensorielles sont finies et discrétisées. Nous discrétisons chaque dimension en 25
cases. Le formant F1 est défini dans l’intervalle[2,3 ; 7,1]Barks, le formant F2 (pour les variables
sensorielles vocaliques et consonantiques) est défini dans l’intervalle[4,7 ; 13,8]Barks et le formant
F3 est défini dans l’intervalle[12,8 ; 16,5]Barks. La discrétisation dans chacun de ces intervalles est
faite de manière linéaire.
Les variables de cohérence Toutes les variables de cohérence, aussi bien les variablesCque les
va-riablesλ, sont définies de la même manière que dans COSMO. Il s’agit donc de variables booléennes
prenant les valeurs « vrai » (1) ou « faux » (0).
7.2.4.2 Les distributions de probabilité
Pour décrire comment sont implémentées les distributions, nous reprenons les six catégories que
nous avons utilisées précédemment en section 7.2.3. Comme l’implémentationdes systèmes de
cohé-renceetdes dépendances consonantiquesne diffère pas de leur définition générale, décrite ci-dessus,
nous nous concentrons sur les quatre autres.
Les priors sur les noyaux Les priors sur les noyaux sont des distributions contenant le même
nombre de valeurs que les noyaux qu’elles caractérisent : nbSC pour P(N
SC), nbLC pour P(N
LC),
nb
SOpourP(N
SO),nb
LOpourP(O
OL),nb
SSylpourP(N
SSyl) etnb
LSylpourP(N
LSyl). Ces
distri-butions suivent une loi de succession de Laplace. Plus précisément, elles se définissent à partir d’une
forme initiale uniforme, qui évoluent ensuite à la manière d’un histogramme, en incrémentant les
cases observées (chaque fois qu’un noyau est sélectionné dans l’apprentissage, son nombre
d’obser-vations est augmenté de 1). Ainsi, en notantobs
nle nombre d’observations du noyau nd’une des
distribution prior de la formeP(N)qui porte surKnoyaux, nous avons :
P([N =n]) = 1 +obs
nK+P
N
obs
n. (7.4)
Les répertoires moteurs Comme dans nos études précédentes, les répertoires moteurs sont des
ensembles de distributions gaussiennes tronquées et discrétisées, paramétrées par une moyenne µ
et une matrice de covarianceΣ (cf Eq.5.11). Pour chaque répertoire moteur, il y a autant de
distri-butions gaussiennes que de noyaux. Il y a doncnb
SCdistributions gaussiennes dans le répertoire
P(∆M |N
SC),nbSO distributions gaussiennes dans le répertoireP(MN O|N
SO)etnbSSyl
distribu-tions gaussiennes dans le répertoireP(∆M
SylM
N OSyl|N
SSyl).
Les répertoires auditifs Comme les répertoires moteurs, les répertoires auditifs sont, une nouvelle
fois, des ensembles de distributions gaussiennes tronquées et discrétisées. Il y a également autant de
distributions gaussiennes que de noyaux pour chaque répertoire auditif, c’est-à-direnb
LCdistribu-tions gaussiennes dans le répertoireP(S
C|N
LC),nb
LOdistributions gaussiennes dans le répertoire
P(SO|N
LO)etnbLSyldistributions gaussiennes dans le répertoireP(S
CSylS
OSyl|N
LSyl).
Les modèles internes Ce sont eux aussi des ensembles de distributions gaussiennes tronquées et
discrétisées. Ils possèdent une distribution gaussienne pour chaque configuration motrice considérée.
Il y a donc 3 375 distributions gaussiennes pour le modèle interne vocaliqueP(S
OM|MO)et 187 547
distributions gaussiennes pour le modèle interne consonantiqueP(S
CM|MC).
7.2.4.3 L’initialisation
Au début de l’apprentissage, comme dans COSMO, nous supposons que les ensembles de
gaus-siennes (répertoires auditifs, répertoires moteurs et modèles internes) approximent des distributions
uniformes. Pour cela, nous considérons que leurs moyennes µsont regroupées au centre de leurs
es-paces respectifs et que les valeurs diagonales des matrices de covariancesΣsont élevées (environ la
taille de l’espace).
Les deux exceptions à cette initialisation des répertoires sont le répertoire moteur consonantique et
le répertoire moteur syllabique. En effet, rappelons que nous souhaitons que le passage d’une
configu-ration articulatoire consonantique à une configuconfigu-ration articulatoire vocalique s’effectue à l’aide d’un
geste simple, impliquant le mouvement d’un articulateur principal, caractéristique de la consonne.
Nous ne souhaitons pas, comme dans COSMO-S, implémenter cette contrainte directement. Nous
souhaitons évaluer si l’agent est capable de l’apprendre sans produire de configurations
consonan-tiques aberrantes cognitivement. Pour ce faire, nous l’implémentons comme une « amorce » : nous
supposons que le répertoire consonantique (resp. la partie consonantique du répertoire syllabique)
possède initialement des gaussiennes positionnées à 0 (valeur de repos) avec une grande variance sur
un des articulateurs consonantiques TD, LH ou Apex et une petite variance sur les trois articulateurs
restants. Elles ont également une grande variance sur Jaw, que nous considérons comme l’articulateur
commun entre toutes les consonnes. Cette initialisation est une forme d’implémentation du calendrier
développemental de la théorie Frame then Content : au départ les gestes du babillage sont
stéréoty-pés autour de l’articulateur porteur, la mâchoire, et d’un articulateur spécifique. La question posée
est de savoir si, au cours de l’apprentissage, l’agent parviendra à maintenir ces coordinations et à
sélectionner les coordinations adéquates pour chaque consonne.
Contrairement à COSMO, les priors des objets nécessitent également une initialisation. Au début
d’apprentissage, il n’y a aucune observation. Le paramètreobs
nvaut donc 0 (voir Eq. 7.4). Ainsi, Les
priors sont, comme les ensembles de gaussiennes, uniformes en début d’apprentissage.
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 159-163)