Discussion

^{M a}^î^tre

_S^{M a}^î^tre

_{M a}_î_tre

Exploitation du modèle COSMO,

dans un cadre théorique simplifié,

pour comparer les approches

motrice et auditive de la perception

Nous venons de prouver que sous des hypothèses d’apprentissage parfait, d’internalisation

parfaite de la transformation articulatori-acoustique et des propriétés de l’environnement, et

d’identité motrice entre le maître et l’agent, les théories motrices et auditives de la perception

sont alors régies par les mêmes équations. Elles font donc les mêmes prédictions, et sont de ce

fait indistinguables sous ces conditions.

4.3 Discussion

Les théories motrice et auditive de la perception sont-elles pour autant toujours indistinguables ?

Évidemment non. Elles le sont lorsque les trois hypothèses sont vérifiées, ce qui n’est a priori

pas vrai en pratique dans la plupart des cas. Pour pouvoir distinguer les théories motrices des

théories auditives, il est nécessaire qu’au moins l’une des trois hypothèses ne soit pas vérifiée.

Considérons ces hypothèses afin d’étudier leur plausibilité en pratique.

H1 est une hypothèse qui porte sur la manière dont l’agent apprend son système perceptif.

Remplacer le signe≈de l’équation 3.39 par le signe = pour obtenirH1revient à effectuer

une infinité de tirages. L’hypothèse H1 suppose donc que l’agent a reçu une infinité

d’exemplaires d’apprentissage et les conserve, ce qui lui permet de capturer parfaitement

le lien entre les objets et les signaux produits par le maître. De manière implicite, H1

suppose également que la représentation interne de l’agent est suffisamment expressive

pour capturer toute la richesse de l’information que lui fournit le maître.

H2 est une hypothèse qui porte sur le système moteur de l’agent. H2 suppose qu’il y

ait une identité motrice parfaite entre le maître et l’agent. Dans notre description de

l’apprentissage, nous avons dit que le maître produisait selon une théorie motrice pure

de la production. Il n’est en fait pas nécessaire de se limiter à ce cas, et le théorème

d’indistinguabilité est également vérifié lorsque, quelle que soit la manière de produire

P(M

|O

π

) du maître, l’agent encode exactement la même information

dans son système moteurP(M |O

π

).

En pratique deux individus ne sont jamais exactement identiques : chacun a un conduit

vocal qui lui est propre, et de plus chacun produit à sa manière, avec ses gestes

idiosyn-crasiques.

H3 est une hypothèse qui porte sur la manière dont l’agent capture dans son modèle interne

une représentation du phénomène physique qui relie l’articulatoire à l’acoustique et des

perturbations éventuelles dues à la propagation du signal par l’environnement. H3

sup-pose que cette internalisation est parfaite. En pratique ce n’est pas le cas : il n’y a aucune

raison de penser que les modèles internes soient en mesure de capturer toute la

complex-ité des phénomènes physiques en jeu, ce qui nécessiterait en particulier une connaissance

parfaite de l’évolution au cours du temps de l’état exact de chacun des muscles du conduit

vocal et de l’ensemble des propriétés de l’environnement.

Finalement, ces trois hypothèses sur lesquelles reposent le théorème d’indistinguabilité ne

font que fournir formellement une idéalisation des conditions d’apprentissage, et permettent de

mieux comprendre la nature de l’information apprise.

Le théorème d’indistinguabilité formalise de manière rigoureuse un argument avancé par les

tenants des théories auditives (Diehl et al., 2004, page 168) : « L’auditeur ne recouvre pas les

gestes, mais il perçoit les conséquences acoustiques des gestes. Toute régularité de la production

de la parole (comme par exemple les effets de contexte) se reflète dans le signal acoustique, et,

par des mécanismes généraux d’apprentissage perceptif, l’auditeur en vient à savoir tirer profit

des corrélats acoustiques de ces régularités de production pour déterminer le contenu phonétique

du signal de parole. »

L’argument est que, comme la perception auditive est apprise à partir de productions

motri-ces, on sait reconnaître toutes les conséquences acoustiques des spécificités de la production.

Dit autrement, toute l’information est présente dans le signal de parole et peut être apprise.

Notre travail avec le modèleCOSMO décrit de manière formelle de quelle information il s’agit,

et comment elle peut être apprise.

Diehl et al. poussent le raisonnement plus loin : « En soi, la forte corrélation existant

entre la production et la perception n’apporte rien au débat opposant la théorie motrice, la

théorie du réalisme direct et les approches auditives générales de la perception de la parole.

Elles prédisent toutes les trois l’existence d’une telle corrélation. Les distinguer empiriquement

nécessite l’utilisation d’autres types de données [...] » (Diehlet al., 2004, pages 168).

Diehlet al. mettent en avant la difficulté de distinguer théories motrices et théories auditives.

C’est également ce que l’on montre dans le cadre deCOSMOavec le théorème d’indistinguabilité

qui met en évidence des conditions parfaites dans lesquelles les deux ne peuvent être séparées.

En revanche, alors que les « autres types de données » dont parlent Diehl et al. ne leur

ont permis que de réfuter l’hypothèse selon laquelle la parole serait spéciale et sur laquelle

repose la théorie motrice de la perception, notre approche, ayant formalisé les conditions

d’indistinguabilité, nous permet également de savoir comment sortir de ces conditions pour

comparer efficacement les implémentations purement motrice et purement perceptive de la

per-ception de la parole.

5 Conclusion

Dans ce chapitre, nous avons présenté l’élaboration, dans le cadre formel de la programmation

bayésienne, de COSMO, notre modèle d’agent communicant qui constitue un cadre

computa-tionnel intégrateur permettant d’étudier et de comparer quantitativement les théories motrice,

auditive et perceptuo-motrice de la parole sur des tâches de production ou de perception. Plus

précisément, c’est la formalisation d’hypothèses cognitives (sur l’internalisation, les notions de

Le texte original est en anglais : “Listeners do not recover gestures, but they do perceive the acoustic

consequences of gestures. Any regularities of speech production (e.g., context dependencies) will be reflected in

the acoustic signal, and, through general mechanisms of perceptual learning, listeners come to make use of the