3.2 Comment se développent les invariants des unités distinctives ?
4.2.2 Spécification du modèle COSMO
Description
Spécification
• Variables
• Décomposition
• Formes paramétriques
Identification
Apprentissage
Questions
Inférence
FIGURE4.6 – Étapes d’un programme bayésien. Adapté de Bessière et al. (2013)
différentes études réalisées à l’aide du modèle COSMO.
4.2.2 Spécification du modèle COSMO
La spécification du modèle COSMO reprend les étapes du programme bayésien telles qu’elles
sont détaillées dans la section précédente. Dans une première partie, nous décrivons les variables, ce
qui nous permet d’écrire la conjointe du modèle. Dans une seconde partie, nous expliquons comment
se décompose cette conjointe et détaillons les distributions qui en résultent.
4.2.2.1 Description des variables du modèle
Afin de bien comprendre comment est construit le modèle COSMO, nous commençons par décrire
son origine et l’hypothèse sur laquelle il est basé. Cette explication a l’avantage de faciliter par la suite
la description des variables du modèle.
Pour cela, imaginons une situation de communication orale la plus simple possible entre deux
agents : un locuteur et un auditeur. Le locuteur souhaite transmettre un concept à l’auditeur. Pour
cela, le locuteur utilise des représentations motrices correspondant au concept souhaité et les produit
grâce à son conduit vocal. Cette production, le message, est ensuite transmise dans l’environnement
et reçue sous la forme d’un signal sonore par l’auditeur. Ce dernier interprète alors le signal reçu
pour retrouver le concept. On suppose que la communication est un succès si le concept compris
par l’auditeur correspond à celui transmis par le locuteur. Cette situation très simple est schématisée
Fig. 4.7 dans laquelle le concept correspond au phonème [a].
Dans le modèle COSMO, il est supposé que cette situation peut être internalisée dans le
cer-veau d’un unique agent, ce qui est nommée l’hypothèse d’internalisation. Selon cette hypothèse, les
éléments de la communication internalisée correspondent aux variables du modèle, symbolisées,
cha-cune, par un symbole précis. Ainsi, le concept de la communication devient un « objet » internalisé.
FIGURE4.7 – Schéma d’une situation de communication simplifiée entre deux agents
Le terme « objet » se réfère, ici, à tout concept (objet, être, action, pensée) pouvant être communiqué.
Il est notéO. Dans cette thèse, nous limitons le terme objet aux unités distinctives et
particulière-ment celles préalableparticulière-ment définies : les phonèmes et/ou les syllabes. Cela constitue ce qui est parfois
nommé le niveau de « seconde articulation » du langage (Martinet, 1970). Il est donc important de
mentionner, qu’à l’inverse, tous les éléments du niveau de « première articulation » (mots, morphèmes,
structure syntaxique, unités sémantiques) sont écartés de cette thèse.
Dans la situation de communication, il y a deux concepts différents : celui pensé par le locuteur et
celui interprété par l’auditeur. Dans le modèle, après internalisation, cela correspond à deux variables
objets, notées respectivementO
S(S faisant référence ici au locuteur : « speaker ») etO
L(Lfaisant
référence ici à l’auditeur : « listener »
2). De plus, dans la vision du modèle choisie pour cette thèse,
l’objetOScorrespond aux unités distinctives liées aux représentations motrices tandis que l’objetOL
correspond aux unités distinctives liées aux représentations sensorielles. Du fait de ce lien, et pour les
distinguer, nous appelons dans la suite de cette thèseOS, des « objets moteurs », etOL, des « objets
sensoriels ».
Focalisons-nous maintenant sur les gestes moteurs que le locuteur utilise pour produire le concept.
Selon l’hypothèse d’internalisation, ces gestes correspondent aux représentations motrices présentes
dans le cerveau. Il leur est attribué la lettreM faisant référence au terme « moteur » et qui, dans sa
définition d’origine, correspond à tout élément capable de produire un mouvement. Cette lettre fait
également écho au terme « moteur » du « cortex moteur ». La définition du mot « élément » et les
représentations motrices considérées sont laissées volontairement floues ici puisqu’elles dépendent
principalement du niveau d’analyse dans lequel on se place lors de l’implémentation du modèle. Il
peut s’agir des organes du conduit vocal, des muscles, des articulations, etc., ceux-ci pouvant être
considérés ensemble ou séparément. Ainsi, nous regroupons dans COSMO différents niveaux
pos-sibles d’analyse de la chaîne de production. Nous ne faisons notamment pas la distinction entre niveau
2. l’utilisation de terminologies anglaises se justifie par le fait que tous ces travaux ont été présentés dans plusieurs publications en anglais, et qu’il semble inadéquat de proposer deux terminologies en langues différentes, avec de forts risques de confusions.articulatoire et niveau moteur ou entre le niveau des actions motrices, celui des commandes motrices
et celui des programmes moteurs, bien que ces distinctions jouent un rôle important dans les débats
sur les théories motrices (voir, par exemple, les différences sur ce point précis entre Fowler, 1986;
Galantucci et al., 2006; Liberman et Mattingly, 1985).
De son côté, le signal sonore reçu et interprété par l’auditeur correspond, selon l’hypothèse
d’in-ternalisation, aux représentations sensorielles. Elles sont symbolisées par la lettreS. Dans la version
actuelle du modèle, les représentations sensorielles correspondent uniquement aux représentations
au-ditives. Tout comme les représentations motrices, elles peuvent être considérées à différents niveaux
d’analyse, mais nous les considérons pour le moment dans leur ensemble.
Pour finir, bien qu’il ne fasse pas partie de la communication elle-même mais qu’il en soit plutôt
une conséquence, le succès de la communication est également pris en compte dans le modèle. Selon
l’hypothèse d’internalisation, la variable en question ne correspond plus au « succès » de la
communi-cation mais assure la cohérence entre les deux objetsOSetOL. Elle est notéeC. De manière imagée,
cette variable de cohérence a le rôle d’un interrupteur : si la variableC est « allumée » alors il est
considéré que les deux objets sont connectés et égaux. Si elle est « éteinte », les deux objets sont
simplement considérés indépendants l’un de l’autre.
Précisons maintenant quelques détails techniques sur ces variables probabilistes. Ce sont toutes
les cinq des ensembles finis et discrets. Néanmoins, malgré cette similitude, elles se distinguent de par
leurs différences de cardinal. Il y a globalement trois types de variables : binaire, à faible cardinal et à
fort cardinal. La seule variable binaire du modèle est la variableC. Il s’agit en réalité d’une variable
booléenne vrai/faux. Les variables à faible cardinal sont les objetsO
Set O
Lqui représentent des
ensembles catégoriels et, plus précisément dans notre cas, des catégories phonétiques. Ces variables
catégorielles ont donc un nombre limité de valeurs. Cette modélisation des unités phonétiques en
uni-tés discrètes catégorielles est, comme nous l’avons vu en section 4.1.1.3, classiquement utilisée. À
l’opposé, les représentations sensoriellesS et motrices M sont les variables à fort cardinal. Du fait
qu’elles traitent de phénomènes physiques de l’environnement, ces variables quantitatives,
correspon-dant en fait à une discrétisation d’un espace continu, nécessitent un nombre important de valeurs afin
de modéliser le plus précisément possible les phénomènes sensoriels et moteurs de l’environnement.
En résumé, le modèle est donc composé de cinq variables probabilistes qui sont le résultat de
l’hypothèse d’internalisation d’une situation de communication. Outre le fait qu’elles soient
symboli-sées par les lettresOS,OL,S,M etC, qui permet d’écrire l’acronyme COSMO, ces cinq variables
forment surtout la distribution conjointe P(C O
LS M O
S), c’est-à-dire la distribution globale du
modèle.
4.2.2.2 Description des distributions du modèle
Une fois l’espace décrit par la distribution conjointe caractérisé, il faut définir les distributions de
probabilité du modèle. Ces distributions suivent les règles classiques du calcul probabiliste telles que
la règle de normalisation, la règle du produit, la règle de marginalisation ou le théorème de Bayes (voir
par exemple un rappel de ces règles dans Laurent, 2014, section 2.2).
Par exemple, en suivant la règle du produit, la distribution conjointeP(C OLS M OS)peut se
décomposer en une suite de distributions :
P(C OLS M OS) =P(C)P(OL|C)P(S|C OL)P(M|C OLS)P(OS|C OLS M). (4.1)
Mais, comme le montre l’exemple ci-dessus, les distributions résultant de cette décomposition
sont, parfois, aussi complexes à traiter que la distribution conjointe elle-même. Pour mieux
mani-puler cette conjointe, il est possible de faire des hypothèses simplificatrices, nommées hypothèses
d’indépendances conditionnelles. Au lieu de considérer que toutes les variables sont dépendantes les
unes des autres, nous supposons que certaines d’entre elles sont indépendantes et qu’il est possible de
connaître leur probabilité conditionnellement à un nombre limité de variables. Ainsi, la conjointe se
décompose en une suite de distributions conditionnelles préalablement choisies.
Outre le fait qu’elles dictent la composition de notre modèle, ces distributions ont un rôle bien
par-ticulier, notamment dans cette thèse. Le modèle COSMO étant ici envisagé comme un modèle
com-putationnel cognitif, nous supposons que ce sont principalement ces distributions qui sont connues,
stockées en mémoire et, pour certaines, apprises par un agent communicant. La décomposition choisie
pour le modèle COSMO est la suivante :
P(C O
LS M O
S) =P(O
S)P(M |O
S)P(S|M)P(O
L|S)P(C|O
SO
L). (4.2)
L’ensemble du modèle et ses relations sont schématisés Fig. 4.8.
FIGURE4.8 – Schéma du modèle COSMO
La première distributionP(OS)est le « prior sur les objets moteurs » ou « prior catégoriel
mo-teur ». Cette distribution suppose que nous avons en mémoire une connaissance préalable sur les
objets, indépendamment de toute autre variable. Cette distribution sert, entre autres, à exprimer la
fré-quence relative de chaque objet moteur du modèle et à indiquer que tel objet est plus probable qu’un
autre.
La deuxième distributionP(M |O
S)est le répertoire moteur. Elle correspond aux connaissances
qu’a l’agent sur la relation entre les représentations motrices et les objets. Nous considérons que ces
connaissances sont contenues sous la forme d’un répertoire, formalisant le fait que l’agent possède en
mémoire une distribution indiquant, pour chaque objet, la probabilité des représentations motrices.
La troisième distribution,P(S |M), est le modèle interne. Elle correspond à une première
ap-plication de l’indépendance conditionnelle puisque nous supposons ici qu’un signal acoustique est
essentiellement causé par un geste moteur, et que connaître l’objet causant ce geste moteur
n’ap-porte pas d’information supplémentaire. Concernant la probabilité elle-même, nous considérons que
la relation entre les représentations sensorielles et les représentations motrices se fait à travers ce
qui est généralement nommé un modèle interne direct. Ce type de modèle est souvent utilisé dans la
littérature (Kawato, 1999; Wolpert et al., 1998) et également dans plusieurs modèles de production
phonétique comme, par exemple, celui de Houde et Nagarajan (2011) vu en section 4.1.1.2. Dans le
modèle COSMO, cela correspond à la distribution de probabilité des représentations sensorielles
sa-chant les représentations motrices. Nous supposons ainsi que l’agent a en mémoire la probabilité des
représentations sensorielles correspondant à chaque représentation motrice. Étant la seule distribution
du modèle liant les représentations sensorielles aux représentations motrices, cela implique que le
mo-dèle ne stocke pas les représentations motrices sachant les représentations sensorielles, c’est-à-dire un
modèle inverse, que l’on trouve aussi parfois dans la littérature. Celui-ci peut être calculé, mais il n’est
pas stocké en mémoire.
La quatrième distribution P(O
L|S) est le classifieur auditif, donnant la probabilité de l’objet
OL sachant les représentations sensoriellesS. Cette distribution suppose que l’agent a en mémoire
la probabilité des objets auditifs pour chaque représentation sensorielle. C’est donc une distribution
permettant de catégoriser les représentations sensorielles. Comme le modèle interne, c’est une
distri-bution également assez classique, qui se retrouve dans plusieurs modèles phonétiques, notamment les
modèles de perception, comme ceux de Kleinschmidt et Jaeger (2011, 2015) ou Norris et McQueen
(2008) comme cela a été illustré dans la section 4.1.1.3.
La cinquième distributionP(C|OS OL)est le système de cohérence. Cette distribution permet
de lier, si nécessaire, les objets catégoriels de la branche motriceO
Savec les objets catégoriels de
la branche auditive O
L. Elle permet de déterminer l’état de l’interrupteurC. Si l’interrupteur est
non activé, les deux objets ne sont pas liés et ils sont traités de façon totalement indépendante. Si
l’interrupteur est activé, les deux objets sont liés. Dans ce cas, la probabilité de la variable de cohérence
vaut 1 si, et seulement si, les deux objets sont identiques. Ils correspondent alors au même objet
O. Ce système est intéressant puisqu’il nous permet de traiter, dans un même modèle, les objets
indépendamment selon leur composante auditive ou motrice ou, au contraire, de les percevoir comme
des objets perceptuo-moteur. D’un point de vue cognitif, il ne semble pas aberrant d’imaginer que
la catégorisation se fait de manière séparée selon la modalité et d’imaginer un système de plus haut
niveau capable d’intégrer ces différentes catégorisations aboutissant à un objet linguistique tel que
nous le connaissons.
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 76-80)