Spécification du modèle COSMO - Comment se développent les invariants des unités distinctives ?

3.2 Comment se développent les invariants des unités distinctives ?

4.2.2 Spécification du modèle COSMO









Description











Spécification

• Variables

• Décomposition

• Formes paramétriques

Identification

Apprentissage

Questions







Inférence

FIGURE4.6 – Étapes d’un programme bayésien. Adapté de Bessière et al. (2013)

différentes études réalisées à l’aide du modèle COSMO.

4.2.2 Spécification du modèle COSMO

La spécification du modèle COSMO reprend les étapes du programme bayésien telles qu’elles

sont détaillées dans la section précédente. Dans une première partie, nous décrivons les variables, ce

qui nous permet d’écrire la conjointe du modèle. Dans une seconde partie, nous expliquons comment

se décompose cette conjointe et détaillons les distributions qui en résultent.

4.2.2.1 Description des variables du modèle

Afin de bien comprendre comment est construit le modèle COSMO, nous commençons par décrire

son origine et l’hypothèse sur laquelle il est basé. Cette explication a l’avantage de faciliter par la suite

la description des variables du modèle.

Pour cela, imaginons une situation de communication orale la plus simple possible entre deux

agents : un locuteur et un auditeur. Le locuteur souhaite transmettre un concept à l’auditeur. Pour

cela, le locuteur utilise des représentations motrices correspondant au concept souhaité et les produit

grâce à son conduit vocal. Cette production, le message, est ensuite transmise dans l’environnement

et reçue sous la forme d’un signal sonore par l’auditeur. Ce dernier interprète alors le signal reçu

pour retrouver le concept. On suppose que la communication est un succès si le concept compris

par l’auditeur correspond à celui transmis par le locuteur. Cette situation très simple est schématisée

Fig. 4.7 dans laquelle le concept correspond au phonème [a].

Dans le modèle COSMO, il est supposé que cette situation peut être internalisée dans le

cer-veau d’un unique agent, ce qui est nommée l’hypothèse d’internalisation. Selon cette hypothèse, les

éléments de la communication internalisée correspondent aux variables du modèle, symbolisées,

cha-cune, par un symbole précis. Ainsi, le concept de la communication devient un « objet » internalisé.

FIGURE4.7 – Schéma d’une situation de communication simplifiée entre deux agents

Le terme « objet » se réfère, ici, à tout concept (objet, être, action, pensée) pouvant être communiqué.

Il est notéO. Dans cette thèse, nous limitons le terme objet aux unités distinctives et

particulière-ment celles préalableparticulière-ment définies : les phonèmes et/ou les syllabes. Cela constitue ce qui est parfois

nommé le niveau de « seconde articulation » du langage (Martinet, 1970). Il est donc important de

mentionner, qu’à l’inverse, tous les éléments du niveau de « première articulation » (mots, morphèmes,

structure syntaxique, unités sémantiques) sont écartés de cette thèse.

Dans la situation de communication, il y a deux concepts différents : celui pensé par le locuteur et

celui interprété par l’auditeur. Dans le modèle, après internalisation, cela correspond à deux variables

objets, notées respectivementO

(S faisant référence ici au locuteur : « speaker ») etO

(Lfaisant

référence ici à l’auditeur : « listener »

). De plus, dans la vision du modèle choisie pour cette thèse,

l’objetOScorrespond aux unités distinctives liées aux représentations motrices tandis que l’objetOL

correspond aux unités distinctives liées aux représentations sensorielles. Du fait de ce lien, et pour les

distinguer, nous appelons dans la suite de cette thèseOS, des « objets moteurs », etOL, des « objets

sensoriels ».

Focalisons-nous maintenant sur les gestes moteurs que le locuteur utilise pour produire le concept.

Selon l’hypothèse d’internalisation, ces gestes correspondent aux représentations motrices présentes

dans le cerveau. Il leur est attribué la lettreM faisant référence au terme « moteur » et qui, dans sa

définition d’origine, correspond à tout élément capable de produire un mouvement. Cette lettre fait

également écho au terme « moteur » du « cortex moteur ». La définition du mot « élément » et les

représentations motrices considérées sont laissées volontairement floues ici puisqu’elles dépendent

principalement du niveau d’analyse dans lequel on se place lors de l’implémentation du modèle. Il

peut s’agir des organes du conduit vocal, des muscles, des articulations, etc., ceux-ci pouvant être

considérés ensemble ou séparément. Ainsi, nous regroupons dans COSMO différents niveaux

pos-sibles d’analyse de la chaîne de production. Nous ne faisons notamment pas la distinction entre niveau

2. l’utilisation de terminologies anglaises se justifie par le fait que tous ces travaux ont été présentés dans plusieurs publications en anglais, et qu’il semble inadéquat de proposer deux terminologies en langues différentes, avec de forts risques de confusions.

articulatoire et niveau moteur ou entre le niveau des actions motrices, celui des commandes motrices

et celui des programmes moteurs, bien que ces distinctions jouent un rôle important dans les débats

sur les théories motrices (voir, par exemple, les différences sur ce point précis entre Fowler, 1986;

Galantucci et al., 2006; Liberman et Mattingly, 1985).

De son côté, le signal sonore reçu et interprété par l’auditeur correspond, selon l’hypothèse

d’in-ternalisation, aux représentations sensorielles. Elles sont symbolisées par la lettreS. Dans la version

actuelle du modèle, les représentations sensorielles correspondent uniquement aux représentations

au-ditives. Tout comme les représentations motrices, elles peuvent être considérées à différents niveaux

d’analyse, mais nous les considérons pour le moment dans leur ensemble.

Pour finir, bien qu’il ne fasse pas partie de la communication elle-même mais qu’il en soit plutôt

une conséquence, le succès de la communication est également pris en compte dans le modèle. Selon

l’hypothèse d’internalisation, la variable en question ne correspond plus au « succès » de la

communi-cation mais assure la cohérence entre les deux objetsOSetOL. Elle est notéeC. De manière imagée,

cette variable de cohérence a le rôle d’un interrupteur : si la variableC est « allumée » alors il est

considéré que les deux objets sont connectés et égaux. Si elle est « éteinte », les deux objets sont

simplement considérés indépendants l’un de l’autre.

Précisons maintenant quelques détails techniques sur ces variables probabilistes. Ce sont toutes

les cinq des ensembles finis et discrets. Néanmoins, malgré cette similitude, elles se distinguent de par

leurs différences de cardinal. Il y a globalement trois types de variables : binaire, à faible cardinal et à

fort cardinal. La seule variable binaire du modèle est la variableC. Il s’agit en réalité d’une variable

booléenne vrai/faux. Les variables à faible cardinal sont les objetsO

et O

qui représentent des

ensembles catégoriels et, plus précisément dans notre cas, des catégories phonétiques. Ces variables

catégorielles ont donc un nombre limité de valeurs. Cette modélisation des unités phonétiques en

uni-tés discrètes catégorielles est, comme nous l’avons vu en section 4.1.1.3, classiquement utilisée. À

l’opposé, les représentations sensoriellesS et motrices M sont les variables à fort cardinal. Du fait

qu’elles traitent de phénomènes physiques de l’environnement, ces variables quantitatives,

correspon-dant en fait à une discrétisation d’un espace continu, nécessitent un nombre important de valeurs afin

de modéliser le plus précisément possible les phénomènes sensoriels et moteurs de l’environnement.

En résumé, le modèle est donc composé de cinq variables probabilistes qui sont le résultat de

l’hypothèse d’internalisation d’une situation de communication. Outre le fait qu’elles soient

symboli-sées par les lettresOS,OL,S,M etC, qui permet d’écrire l’acronyme COSMO, ces cinq variables

forment surtout la distribution conjointe P(C O

S M O

), c’est-à-dire la distribution globale du

modèle.

4.2.2.2 Description des distributions du modèle

Une fois l’espace décrit par la distribution conjointe caractérisé, il faut définir les distributions de

probabilité du modèle. Ces distributions suivent les règles classiques du calcul probabiliste telles que

la règle de normalisation, la règle du produit, la règle de marginalisation ou le théorème de Bayes (voir

par exemple un rappel de ces règles dans Laurent, 2014, section 2.2).

Par exemple, en suivant la règle du produit, la distribution conjointeP(C OLS M OS)peut se

décomposer en une suite de distributions :

P(C OLS M OS) =P(C)P(OL|C)P(S|C OL)P(M|C OLS)P(OS|C OLS M). (4.1)

Mais, comme le montre l’exemple ci-dessus, les distributions résultant de cette décomposition

sont, parfois, aussi complexes à traiter que la distribution conjointe elle-même. Pour mieux

mani-puler cette conjointe, il est possible de faire des hypothèses simplificatrices, nommées hypothèses

d’indépendances conditionnelles. Au lieu de considérer que toutes les variables sont dépendantes les

unes des autres, nous supposons que certaines d’entre elles sont indépendantes et qu’il est possible de

connaître leur probabilité conditionnellement à un nombre limité de variables. Ainsi, la conjointe se

décompose en une suite de distributions conditionnelles préalablement choisies.

Outre le fait qu’elles dictent la composition de notre modèle, ces distributions ont un rôle bien

par-ticulier, notamment dans cette thèse. Le modèle COSMO étant ici envisagé comme un modèle

com-putationnel cognitif, nous supposons que ce sont principalement ces distributions qui sont connues,

stockées en mémoire et, pour certaines, apprises par un agent communicant. La décomposition choisie

pour le modèle COSMO est la suivante :

P(C O

S M O

) =P(O

)P(M |O

)P(S|M)P(O

|S)P(C|O

O

). (4.2)

L’ensemble du modèle et ses relations sont schématisés Fig. 4.8.

FIGURE4.8 – Schéma du modèle COSMO

La première distributionP(OS)est le « prior sur les objets moteurs » ou « prior catégoriel

mo-teur ». Cette distribution suppose que nous avons en mémoire une connaissance préalable sur les

objets, indépendamment de toute autre variable. Cette distribution sert, entre autres, à exprimer la

fré-quence relative de chaque objet moteur du modèle et à indiquer que tel objet est plus probable qu’un

autre.

La deuxième distributionP(M |O

)est le répertoire moteur. Elle correspond aux connaissances

qu’a l’agent sur la relation entre les représentations motrices et les objets. Nous considérons que ces

connaissances sont contenues sous la forme d’un répertoire, formalisant le fait que l’agent possède en

mémoire une distribution indiquant, pour chaque objet, la probabilité des représentations motrices.

La troisième distribution,P(S |M), est le modèle interne. Elle correspond à une première

ap-plication de l’indépendance conditionnelle puisque nous supposons ici qu’un signal acoustique est

essentiellement causé par un geste moteur, et que connaître l’objet causant ce geste moteur

n’ap-porte pas d’information supplémentaire. Concernant la probabilité elle-même, nous considérons que

la relation entre les représentations sensorielles et les représentations motrices se fait à travers ce

qui est généralement nommé un modèle interne direct. Ce type de modèle est souvent utilisé dans la

littérature (Kawato, 1999; Wolpert et al., 1998) et également dans plusieurs modèles de production

phonétique comme, par exemple, celui de Houde et Nagarajan (2011) vu en section 4.1.1.2. Dans le

modèle COSMO, cela correspond à la distribution de probabilité des représentations sensorielles

sa-chant les représentations motrices. Nous supposons ainsi que l’agent a en mémoire la probabilité des

représentations sensorielles correspondant à chaque représentation motrice. Étant la seule distribution

du modèle liant les représentations sensorielles aux représentations motrices, cela implique que le

mo-dèle ne stocke pas les représentations motrices sachant les représentations sensorielles, c’est-à-dire un

modèle inverse, que l’on trouve aussi parfois dans la littérature. Celui-ci peut être calculé, mais il n’est

pas stocké en mémoire.

La quatrième distribution P(O

|S) est le classifieur auditif, donnant la probabilité de l’objet

OL sachant les représentations sensoriellesS. Cette distribution suppose que l’agent a en mémoire

la probabilité des objets auditifs pour chaque représentation sensorielle. C’est donc une distribution

permettant de catégoriser les représentations sensorielles. Comme le modèle interne, c’est une

distri-bution également assez classique, qui se retrouve dans plusieurs modèles phonétiques, notamment les

modèles de perception, comme ceux de Kleinschmidt et Jaeger (2011, 2015) ou Norris et McQueen

(2008) comme cela a été illustré dans la section 4.1.1.3.

La cinquième distributionP(C|OS OL)est le système de cohérence. Cette distribution permet

de lier, si nécessaire, les objets catégoriels de la branche motriceO

avec les objets catégoriels de

la branche auditive O

L. Elle permet de déterminer l’état de l’interrupteur

C. Si l’interrupteur est

non activé, les deux objets ne sont pas liés et ils sont traités de façon totalement indépendante. Si

l’interrupteur est activé, les deux objets sont liés. Dans ce cas, la probabilité de la variable de cohérence

vaut 1 si, et seulement si, les deux objets sont identiques. Ils correspondent alors au même objet

O. Ce système est intéressant puisqu’il nous permet de traiter, dans un même modèle, les objets

indépendamment selon leur composante auditive ou motrice ou, au contraire, de les percevoir comme

des objets perceptuo-moteur. D’un point de vue cognitif, il ne semble pas aberrant d’imaginer que

la catégorisation se fait de manière séparée selon la modalité et d’imaginer un système de plus haut

niveau capable d’intégrer ces différentes catégorisations aboutissant à un objet linguistique tel que

nous le connaissons.

Dans le document Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie (Page 76-80)