6.2 Corrélation des idiosyncrasies en perception et en production
6.2.4 Analyse du modèle
Contrairement aux études précédentes, nous n’analysons ni la qualité ni l’évolution de
l’appren-tissage puisque cela a déjà été fait dans l’étude précédente. Nous nous focalisons sur ce dont nous
avons besoin pour comparer notre modèle avec l’étude de M&S : une tâche de production et une tâche
de perception. Ces deux tâches sont évaluées une fois l’apprentissage des douze agents terminés.
6.2.4.1 Tâche de production
Lors de la tâche de production, nous souhaitons connaître, pour agent apprenant, le signal auditif
produit en moyenne pour chaque voyelle. D’un point de vue expérimental, la tâche de production
consisterait à faire produire des voyelles aux agents apprenants et à enregistrer le signal auditif
ré-sultant. Ensuite, la recherche du signal auditif moyen équivaudrait à calculer, pour chaque voyelle, la
moyenne des signaux produits.
Dans COSMO, nous effectuons cette tâche grâce à la distributionP(S
Env|O
S). Déjà décrite et
utilisée précédemment pour comparer l’apprentissage par imitation et l’apprentissage par
communi-cation, nous la reprenons telle quelle dans cette étude. De la même manière, pour obtenir le signal
auditif moyen, nous calculons, comme précédemment, les valeurs des moyennes individuelles (mi)
de nos agents (voir section 6.1.4.2 pour plus de détails).
6.2.4.2 Tâche de perception
Lors de la tâche de perception, nous souhaitons définir, pour chaque agent apprenant, la moyenne
des signaux auditifs perçus correspondant à chaque voyelle. Dit autrement, nous souhaitons
déter-miner l’ensemble des signaux qui sont perçus comme une même voyelle et calculer ensuite leur
moyenne. D’un point de vue expérimental, la tâche de perception consisterait à faire catégoriser un
ensemble de sons aux agents apprenants. Par la suite, la recherche du signal moyen consisterait à
orga-niser les signaux testés par voyelle et à calculer le signal moyen pour chacune d’elles. Dans COSMO,
le plus simple pour obtenir le signal perçu moyen pour chaque voyelle est de calculer la moyenne de
la distributionP(S|O)donnant la probabilité des signauxS pour chaque objetO.
Nous souhaitons, en plus, étudier la tâche de perception selon les trois familles des théories de la
perception. En nous basant sur une tâche de catégorisation réalisée à l’aide d’un décodeurP(O |S),
nous avons vu, dans la section 4.2.4 du chapitre 3, que la nature de la perception dépend
essentielle-ment de l’objetOconsidéré. En effet, choisir l’objetOLpermet d’implémenter une tâche de
catégori-sation selon les théories auditives via le décodeur auditifP(O
L|S), choisir l’objetO
Spermet
d’im-plémenter une tâche de catégorisation selon les théories motrices via le décodeur moteurP(O
S|S)
et choisir un objet communOLetOS, par l’activation de la variable de cohérenceC, permet
d’im-plémenter une tâche de catégorisation selon les théories auditives via le décodeur perceptuo-moteur
P(O
S|S[C= 1]).
Pour caractériser ces trois familles de théories, nous utilisons la distribution P(S | O) qui est
proportionnelle à la distributionP(O |S), puisque les priors sur les objetsO sont uniformes. Ainsi,
les trois formules deP(S|O)se définissent par :
P(S|O
L) ∝ P(O
L|S) (voir Eq.4.8), (6.10)
P(S|O
S) ∝ P(O
S|S)
∝ X
M
P(M |OS)P(S|M),(voir Eq.4.9), (6.11)
P(S|OL[C = 1]) ∝ P(OL|S)P(OS|S)
∝ P(O
L|S)X
MP(M |O
S)P(S|M) (voir Eq.4.10)
∝ P(S|O
L)P(S|O
S). (6.12)
Par la suite,P(S |O
L) est donc la distribution utilisée pour les théories auditives, P(S |O
S) est
la distribution utilisée pour les théories motrices et P(S | O
L[C = 1]) est la distribution utilisée
pour les théories perceptuo-motrices. Pour chacune de ces distributions, nous calculons le stimulus
moyen, pour chaque voyelleo. Nous obtenons ainsi les valeurs des moyennes individuelles mi en
perception. Pour mieux les distinguer, nous appelonsmi
Ales valeurs desmiissues de la distribution
auditiveP(S|OL),miM celles issues de la distribution motriceP(S|OS)etmiP M celles issues de
la distribution perceptuo-motriceP(S|O
L[C= 1]).
6.2.4.3 Corrélation production/perception
Maintenant que nos deux tâches et les valeurs de leursmirespectives sont définies, nous calculons
les corrélations entre ces valeurs. Pour cela, nous nous servons d’une procédure similaire à celle de
M&S :
1. Nous récupérons la valeur en F1 des valeurs desmi.
2. Nous regroupons les voyelles selon les quatre degrés d’aperture précédemment définis : les
voyelles hautes ([i u]), les mi-hautes ([e o]), mi-basses ([E O]) et basse ([a]).
3. Nous calculons la moyennem
1pour les voyelles hautes et nous utilisons la valeur de lamide
la voyelle [a] comme valeurm
4.
normalisée des voyelles mi-hautes et mi-basses
2.
Nous obtenons ainsi des valeurs normalisées de F1 pour les quatre voyelles mi-hautes et mi-basses
[e o E O] pour tous nos agents et ce, pour les valeurs desmien perception d’une part (pour chacune
des trois familles de théories perceptives) et en production d’autre part. Nous avons ainsi pu calculer
la corrélation entre les idiosyncrasies de perception et les idiosyncrasies de production, pour chacune
des trois théories perceptives.
6.2.5 Résultats
6.2.5.1 Idiosyncrasies en perception et en production
Nous commençons par étudier les valeurs desmiissues des tâches de perception (voir Fig. 6.6).
Celle-ci sont construites exactement sur le même principe que dans l’étude précédente : elles sont
affichées dans l’espace auditif F1/F2 organisé de manière à voir apparaître le triangle vocalique. En
fond, la distributionP(OL|S)est représentée sous forme de courbes d’isoprobabilités afin d’afficher
les contours associés à chaque voyelle et vérifier que les valeurs desmiobtenues sont correctement
placées dans la portion de l’espace de la voyelle à laquelle elles correspondent. Pour rappel et pour
comparaison, les valeurs desmipour la tâche de production sont également affichées. La Fig 6.6d est
donc identique à la Fig. 6.3c.
De manière générale, nous observons que les agents ont des valeurs demidifférentes dans les
tâches de perception motrice et perceptuo-motrice mais pas dans la tâche de perception auditive. En
effet, dans ce dernier cas, les valeurs desmi
Asont les mêmes pour tous les agents et sont situées
au centre de chaque voyelle. Ce résultat n’est pas surprenant : le répertoire auditifP(S |O
L) est,
pour chaque agent, une approximation gaussienne de la distribution de productionP(S |O
SM aitre)
du maître. Comme chaque agent réalise son apprentissage sensoriel à l’aide du même maître, les
agents approximent tous la même distributionP(S |O
SM aitre). Par conséquent, les valeurs de leurs
misont toutes identiques et sont, par ailleurs, toutes situées au centre de l’espace de chaque voyelle.
Il n’apparait donc aucune idiosyncrasie acoustique dans cette situation. Pour faire le lien avec l’étude
précédente, l’apprentissage sensoriel agit donc comme l’apprentissage par imitation.
Au contraire, les valeurs desmiM sont différentes entre les agents. La dispersion moyenne de ces
valeurs est de 0,1837 Barks en F1 et de 0,6800 Barks en F2. Par ailleurs, nous observons qu’elles sont
très similaires aux valeurs desmien production dont la dispersion moyenne est de 0,1793 Barks en
F1 et de 0,6828 Barks en F2 (voir Table 6.1 pour plus de détails sur la dispersion). Si nous reprenons
les équations correspondantes (voir Eq. 6.6 et Eq.6.11), nous analysons que les valeurs desmi
Msont
calculées à l’aide du répertoire moteurP(M |OS) et du modèle interne P(S |M) tandis que les
valeurs desmien production sont calculées à partir du répertoire moteurP(M |OS)et de la
trans-formation d’un geste en sonP(S
Env|M
Env). Comme il s’agit des mêmes agents, les répertoires
moteurs, dans ces deux équations, sont les mêmes. Si les valeurs desmiM et celles desmien
produc-tion sont similaires, cela signifie donc que le modèle interneP(S|M)est similaire à la distribution
2. Pour rappel, du fait de la formule utilisée, la valeur normalisée des voyelles hautes vaut 0 et celle de la voyelle basse vaut 1.(a)mi
A(b)mi
M(c)mi
P M(d)mien production
FIGURE 6.6 – Illustration des valeurs des mi en fin d’apprentissage pour les tâches de perception
auditive (a), motrice (b) et perceptuo-motrice (c) et pour la tâche de production (d)
P(S
Env|M
Env). Ainsi, nous en déduisons que lors de l’apprentissage sensorimoteur, le modèle
in-terneP(S|M)apprend à approximer de façon quasi parfaite la distributionP(S
Env|M
Env). C’est
la conclusion à laquelle nous sommes déjà parvenus lors de l’étude précédente (voir section 6.1.5.1).
Il y a donc des idiosyncrasies en perception selon les théories motrices et celles-ci sont quasiment
identiques à celles en production.
Pour finir, les valeurs des mi
P Msont également différentes entre agents. Leur localisation est
similaire à celles desmiM (et donc, par suite, à celles desmi de production). Elles sont cependant
moins dispersées puisqu’elles ont une dispersion moyenne de 0,1522 Barks en F1 et de 0,5609 Barks
en F2. Puisque la distribution utilisée pour réaliser la perception perceptuo-motrice est une fusion
entre la distribution de perception auditive et la distribution de perception motrice, les valeurs des
mi
P Msont un mélange entre les valeurs desmi
Apour lesquelles la dispersion est quasiment nulle et
celles desmi
M. Il y a donc des idiosyncrasies également en perception selon les théories
perceptuo-motrices, mais celles-ci diffèrent des idiosyncrasies en perception motrice et des idiosyncrasies en
production.
6.2.5.2 Comparaison des deux études
Maintenant que nous avons observé qu’il apparaît des idiosyncrasies, nous pouvons étudier la
corrélation entre les idiosyncrasies obtenues en perception et en production et surtout les comparer
avec celles obtenues dans l’étude de M&S. Nous affichons, sur la Fig. 6.7, les valeurs desmipour
les trois tâches de perception, comparées à celles de la tâche de production, ainsi que les droites de
régression correspondantes. Nous reportons pour référence, les points et droites obtenus par M&S.
Nous reportons également les pentes de régression dans la Table 6.2 et les coefficients de corrélation
dans la Table 6.3.
(a) Voyelle [e] (b) Voyelle [E] (c) Vowel [o] (d) Vowel [O]
(e) Voyelle [e] M&S (f) Voyelle [E] M&S (g) Vowel [o] M&S (h) Vowel [O] M&S
FIGURE 6.7 – Idiosyncrasies couplées des tâches de perception/production. Haut : Résultats des
si-mulations. Points et courbes de régression linaire pour les idiosyncrasies couplées des prédictions
auditive (en bleu), motrice (en rouge) et perceptuo-motrice (en vert). Bas : Points expérimentaux
et régressions linéaires issues des données de M&S. Chaque colonne correspond à l’une des quatre
voyelles étudiées, dans l’ordre : [e E o O]
D’une manière générale, nous observons que les valeurs desmicouplées obtenues avec le modèle
COSMO ont un comportement global similaire entre chaque voyelle. En étudiant plus spécifiquement
la table des pentes de régression, nous observons que la pente est quasiment nulle pour la perception
auditive, aux alentours de 1 pour la perception motrice et variant entre 0,54 et 0,87 pour la perception
perceptuo-motrice, conformément à nos analyses précédentes.
Comparons maintenant nos résultats avec ceux de M&S. Du fait que nos simulations n’ont pas
pour objectif de reproduire exactement les données obtenues par M&S, mais plutôt leur
comporte-ment global, notre comparaison se veut davantage qualitative que quantitative. Nous réalisons trois
observations importantes.
Premièrement, les valeurs desmicouplées dans nos simulations sont moins dispersées que celles
de M&S. En effet, les valeurs normalisées en F1 des valeurs des mi de production varient entre
10 et 20% tandis que celles de M&S varient de plus de 50%. De même, en perception, les valeurs
normalisées en F1 des valeurs des mi de nos simulations varient au maximum de 20% tandis que
celles de M&S varient de plus de 40%. Nous reviendrons sur ce point en discussion.
Deuxièmement, les pentes de régression obtenues par M&S varient entre 0,4 et 0,6, ce qui est
si-gnificativement supérieur à 0. Ce résultat est incompatible avec les pentes des idiosyncrasies couplées
de perception auditive dont les pentes sont nulles. Ce résultat semble, en revanche, compatible avec les
TABLE 6.2 – Pentes de régression entre les données en production et en perception pour chaque
voyelle [e o E O] de l’étude de M&S comparées aux pentes de régression entre les tâches de perception
et de production dans COSMO pour les systèmes de perception auditif, moteur et perceptuo-moteur
(PM). Nous affichons les niveaux de significativité pour les pentes des données de M&S selon le
format suivant : (supérieur à 0, inférieur à 1). Les niveaux de significativité sont notés∗pourp <0.05,
opourp≥0.05
Voyelles M&S Auditif Moteur PM
[e] 0.5612(∗,o) -0.0103 1.0097 0.5395
[E] 0.6505(∗,o) -0.0009 0.9915 0.6290
[o] 0.6195(∗,o) -0.0044 0.9527 0.6898
[O] 0.4236(∗,∗) 0.0000 0.9619 0.8685
TABLE6.3 – Coefficients de corrélation entre les données en production et en perception pour chaque
voyelle [e o E O] de l’étude de M&S, associées aux coefficients de corrélation entre les données en
perception et en production des simulations dans COSMO pour les systèmes de perception moteur et
perceptuo-moteur (PM)
Vowels M&S Motor PM
[e] 0.5965 0.9976 0.8728
[E] 0.6554 0.9974 0.9573
[o] 0.6153 0.9989 0.9651
[O] 0.6024 0.9987 0.9757
pentes des idiosyncrasies couplées de perception motrice, dont les valeurs sont proches de 1, puisque
les pentes obtenues par M&S ne sont pas significativement inférieure à 1 (sauf pour la voyelle [O]).
Néanmoins, les pentes des idiosyncrasies couplées de perception perceptuo-motrice semblent plus
similaires à celles de M&S.
Troisièmement, les coefficients de corrélation obtenus par M&S varient autour de 0,60 tandis que
les coefficients obtenus pour nos simulations dépassent globalement 0,90 pour les prédictions motrices
et perceptuo-motrices. Cela vient du fait que nos données de simulations sont moins bruitées que les
données expérimentales.
6.2.6 Discussion
6.2.6.1 Synthèse
Nous avons, dans un premier temps, observé des idiosyncrasies auditives dans chacune de nos
tâches sauf pour les valeurs desmiA. Dans un second temps, en comparant nos données avec celles
de M&S, nous avons remarqué que la corrélation obtenue était non nulle et en accord avec celle
trouvée par M&S lorsque la tâche de perception s’effectuait avec un système de prédiction moteur ou
perceptuo-moteur.
plus loin, nous avons observé que les corrélations entre les données en perception et en production
obtenues avec le système de prédiction perceptuo-moteur sont les plus proches de celles obtenues par
M&S, ce qui suggère que la perception perceptuo-motrice est plus pertinente que les deux autres.
6.2.6.2 Interprétation
L’absence de variabilité dans les valeurs desmi
Apeut surprendre. Comme dit précédemment, cela
s’explique par le fait que le répertoire auditif P(S |O
L)sur lesquelles elles s’appuient est similaire
entre tous les agents puisqu’il approximent pour chaque agent le même environnement. En cela, les
valeurs desmi
Ase rapprochent de celles desmi obtenues par l’apprentissage par imitation dans la
section précédente. En supposant que l’environnement diffère entre les agents, nous pouvons nous
attendre à ce que les valeurs desmiAvarient elles aussi et donc que des idiosyncrasies apparaissent.
À l’inverse, suite à l’apprentissage par communication les valeurs desmi
Mdiffèrent et ce, même avec
un environnement identique.
À ce stade, l’interprétation à laquelle nous arrivons est que les représentations fournies par la voie
de décodage auditive, ici correspondant aux valeurs desmi
A, sont issues des données del’environne-ment tandis que les représentations issues de la voie de décodage moteur, correspondant aux valeurs
desmiM, sont basées sur des composantes endogènes, des tirages propres à chaque agent. Au travers
des idiosyncrasies, ces deux comportements rendent compte de deux nouvelles différences entre
l’ap-prentissage sensoriel et l’apl’ap-prentissage moteur. Ainsi, nous proposons que l’apl’ap-prentissage sensoriel
est avant tout un apprentissage exogène centré sur les données de l’environnement tandis que
l’ap-prentissage moteur est avant tout un apl’ap-prentissage endogène relatif à chaque agent. Cela pourrait être
une nouvelle explication de la complémentarité entre les représentations sensorielles et motrices que
nous avons évoquée au chapitre précédent.
6.3 Conclusion
Ce chapitre était dédié à l’analyse des idiosyncrasies. Dans une première étude, nous avons analysé
leur apparition et avons remarqué qu’elles dépendent principalement de l’apprentissage moteur, dans
sa version dite « d’apprentissage communicatif ». Dans une seconde étude, nous avons comparé la
corrélation entre les idiosyncrasies en perception et en production avec des données expérimentales
et avons obtenu une similarité lorsque les représentations motrices sont utilisées en perception. Ces
deux résultats accentuent les différences entre les représentations sensorielles et motrices et confirment
l’importance des représentations motrices en perception. Ces études restent néanmoins centrées sur
les voyelles. Une nouvelle étape de complexification est de s’intéresser à des unités distinctives plus
variées commes des consonnes ou des syllabes. C’est le sujet du prochain chapitre.
La composition interne des unités
phonétiques et COSMO SylPhon
Publication :
— Barnaud, M.-L., Diard, J., Bessière, P., et Schwartz, J.-L. (2017a). Assessing
phonologi-cal learning in COSMO, a Bayesian model of speech communication. In The 7th Joint
IEEE International Conference on Developmental and Learning and on Epigenetic Robotics
(ICDL-Epirob 2017)
Dans les deux précédents chapitres, les unités distinctives utilisées ont évolué d’unités discrètes
abstraites à des phonèmes vocaliques. Cependant, l’utilisation et l’apparition des phonèmes, surtout
durant l’apprentissage, sont souvent remises en question : certains chercheurs affirment notamment
que l’unité de base apparaissant lors du développement n’est pas le phonème mais la syllabe (voir
section 3.2.3).
Dans ce chapitre, nous nous focalisons davantage sur l’étude de la structure cognitive des unités
et étudions en particulier l’acquisition des syllabes et des phonèmes. Dans ce contexte, nous avons
deux objectifs : nous souhaitons vérifier, d’une part, qu’un agent apprenant COSMO est capable
d’ap-prendre des unités distinctives et, d’autre part, qu’il est capable de communiquer avec son maître.
Cet apprentissage s’effectue sous deux conditions : 1) l’agent n’a pas de connaissances préalables
sur le nombre et le contenu de ses catégories et 2) l’invariant consonantique n’est pas explicitement
implémenté.
Ces deux conditions sont les challenges de ce chapitre et diffèrent des précédentes études
effec-tuées. Après les avoir précisées, nous nous intéressons à l’implémentation du modèle. En plus de la
prise en compte des deux conditions, l’utilisation des unités distinctives de différents types,
sylla-biques et phonémiques, nécessite une extension du modèle. Nous présentons, à cette occasion, une
nouvelle version du modèle COSMO, nommée COSMO SylPhon (Syl pour syllabe et Phon pour
pho-nème). Par la suite, nous détaillons les étapes d’apprentissage et leurs résultats respectifs. Pour finir,
nous analysons la capacité de communication de ce nouveau modèle.
7.1 Hypothèses de l’étude
Implémenter une version syllabique du modèle COSMO n’est pas novateur. Cela a déjà été
réa-lisé par Laurent et al. (2017) dans une extension du modèle nommée COSMO-S. Ce modèle montre
notamment que la complémentarité entre les représentations auditives et motrices s’étend au contenu
cognitif des unités distinctives puisque les voyelles semblent mieux discriminées par les
représenta-tions auditives tandis que les consonnes semblent mieux discriminées par les représentareprésenta-tions motrices.
Le modèle COSMO SylPhon, que nous proposons dans cette étude, s’inspire de ce modèle pour
sa partie syllabique et l’étend, en plus, à l’apprentissage des catégories phonémiques. Par ailleurs,
son implémentation et son apprentissage diffèrent du modèle COSMO-S sur deux points cruciaux.
Premièrement, l’agent COSMO apprenant ne possède plus de connaissances préalables sur le nombre
exact d’unités distinctives dans sa langue et n’a plus d’accès direct aux catégories phonétiques du
maître. Deuxièmement, dans COSMO SylPhon, les invariants phonémiques, notamment l’invariant
consonantique, ne sont plus implémentés de façon aussi explicite que dans COSMO-S. Ceci nécessite,
en conséquence, de contraindre l’apprentissage.
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 142-151)