• Aucun résultat trouvé

6.2 Corrélation des idiosyncrasies en perception et en production

6.2.4 Analyse du modèle

Contrairement aux études précédentes, nous n’analysons ni la qualité ni l’évolution de

l’appren-tissage puisque cela a déjà été fait dans l’étude précédente. Nous nous focalisons sur ce dont nous

avons besoin pour comparer notre modèle avec l’étude de M&S : une tâche de production et une tâche

de perception. Ces deux tâches sont évaluées une fois l’apprentissage des douze agents terminés.

6.2.4.1 Tâche de production

Lors de la tâche de production, nous souhaitons connaître, pour agent apprenant, le signal auditif

produit en moyenne pour chaque voyelle. D’un point de vue expérimental, la tâche de production

consisterait à faire produire des voyelles aux agents apprenants et à enregistrer le signal auditif

ré-sultant. Ensuite, la recherche du signal auditif moyen équivaudrait à calculer, pour chaque voyelle, la

moyenne des signaux produits.

Dans COSMO, nous effectuons cette tâche grâce à la distributionP(S

Env

|O

S

). Déjà décrite et

utilisée précédemment pour comparer l’apprentissage par imitation et l’apprentissage par

communi-cation, nous la reprenons telle quelle dans cette étude. De la même manière, pour obtenir le signal

auditif moyen, nous calculons, comme précédemment, les valeurs des moyennes individuelles (mi)

de nos agents (voir section 6.1.4.2 pour plus de détails).

6.2.4.2 Tâche de perception

Lors de la tâche de perception, nous souhaitons définir, pour chaque agent apprenant, la moyenne

des signaux auditifs perçus correspondant à chaque voyelle. Dit autrement, nous souhaitons

déter-miner l’ensemble des signaux qui sont perçus comme une même voyelle et calculer ensuite leur

moyenne. D’un point de vue expérimental, la tâche de perception consisterait à faire catégoriser un

ensemble de sons aux agents apprenants. Par la suite, la recherche du signal moyen consisterait à

orga-niser les signaux testés par voyelle et à calculer le signal moyen pour chacune d’elles. Dans COSMO,

le plus simple pour obtenir le signal perçu moyen pour chaque voyelle est de calculer la moyenne de

la distributionP(S|O)donnant la probabilité des signauxS pour chaque objetO.

Nous souhaitons, en plus, étudier la tâche de perception selon les trois familles des théories de la

perception. En nous basant sur une tâche de catégorisation réalisée à l’aide d’un décodeurP(O |S),

nous avons vu, dans la section 4.2.4 du chapitre 3, que la nature de la perception dépend

essentielle-ment de l’objetOconsidéré. En effet, choisir l’objetOLpermet d’implémenter une tâche de

catégori-sation selon les théories auditives via le décodeur auditifP(O

L

|S), choisir l’objetO

S

permet

d’im-plémenter une tâche de catégorisation selon les théories motrices via le décodeur moteurP(O

S

|S)

et choisir un objet communOLetOS, par l’activation de la variable de cohérenceC, permet

d’im-plémenter une tâche de catégorisation selon les théories auditives via le décodeur perceptuo-moteur

P(O

S

|S[C= 1]).

Pour caractériser ces trois familles de théories, nous utilisons la distribution P(S | O) qui est

proportionnelle à la distributionP(O |S), puisque les priors sur les objetsO sont uniformes. Ainsi,

les trois formules deP(S|O)se définissent par :

P(S|O

L

) ∝ P(O

L

|S) (voir Eq.4.8), (6.10)

P(S|O

S

) ∝ P(O

S

|S)

X

M

P(M |OS)P(S|M),(voir Eq.4.9), (6.11)

P(S|OL[C = 1]) ∝ P(OL|S)P(OS|S)

∝ P(O

L

|S)X

M

P(M |O

S

)P(S|M) (voir Eq.4.10)

∝ P(S|O

L

)P(S|O

S

). (6.12)

Par la suite,P(S |O

L

) est donc la distribution utilisée pour les théories auditives, P(S |O

S

) est

la distribution utilisée pour les théories motrices et P(S | O

L

[C = 1]) est la distribution utilisée

pour les théories perceptuo-motrices. Pour chacune de ces distributions, nous calculons le stimulus

moyen, pour chaque voyelleo. Nous obtenons ainsi les valeurs des moyennes individuelles mi en

perception. Pour mieux les distinguer, nous appelonsmi

A

les valeurs desmiissues de la distribution

auditiveP(S|OL),miM celles issues de la distribution motriceP(S|OS)etmiP M celles issues de

la distribution perceptuo-motriceP(S|O

L

[C= 1]).

6.2.4.3 Corrélation production/perception

Maintenant que nos deux tâches et les valeurs de leursmirespectives sont définies, nous calculons

les corrélations entre ces valeurs. Pour cela, nous nous servons d’une procédure similaire à celle de

M&S :

1. Nous récupérons la valeur en F1 des valeurs desmi.

2. Nous regroupons les voyelles selon les quatre degrés d’aperture précédemment définis : les

voyelles hautes ([i u]), les mi-hautes ([e o]), mi-basses ([E O]) et basse ([a]).

3. Nous calculons la moyennem

1

pour les voyelles hautes et nous utilisons la valeur de lamide

la voyelle [a] comme valeurm

4

.

normalisée des voyelles mi-hautes et mi-basses

2

.

Nous obtenons ainsi des valeurs normalisées de F1 pour les quatre voyelles mi-hautes et mi-basses

[e o E O] pour tous nos agents et ce, pour les valeurs desmien perception d’une part (pour chacune

des trois familles de théories perceptives) et en production d’autre part. Nous avons ainsi pu calculer

la corrélation entre les idiosyncrasies de perception et les idiosyncrasies de production, pour chacune

des trois théories perceptives.

6.2.5 Résultats

6.2.5.1 Idiosyncrasies en perception et en production

Nous commençons par étudier les valeurs desmiissues des tâches de perception (voir Fig. 6.6).

Celle-ci sont construites exactement sur le même principe que dans l’étude précédente : elles sont

affichées dans l’espace auditif F1/F2 organisé de manière à voir apparaître le triangle vocalique. En

fond, la distributionP(OL|S)est représentée sous forme de courbes d’isoprobabilités afin d’afficher

les contours associés à chaque voyelle et vérifier que les valeurs desmiobtenues sont correctement

placées dans la portion de l’espace de la voyelle à laquelle elles correspondent. Pour rappel et pour

comparaison, les valeurs desmipour la tâche de production sont également affichées. La Fig 6.6d est

donc identique à la Fig. 6.3c.

De manière générale, nous observons que les agents ont des valeurs demidifférentes dans les

tâches de perception motrice et perceptuo-motrice mais pas dans la tâche de perception auditive. En

effet, dans ce dernier cas, les valeurs desmi

A

sont les mêmes pour tous les agents et sont situées

au centre de chaque voyelle. Ce résultat n’est pas surprenant : le répertoire auditifP(S |O

L

) est,

pour chaque agent, une approximation gaussienne de la distribution de productionP(S |O

SM aitre

)

du maître. Comme chaque agent réalise son apprentissage sensoriel à l’aide du même maître, les

agents approximent tous la même distributionP(S |O

SM aitre

). Par conséquent, les valeurs de leurs

misont toutes identiques et sont, par ailleurs, toutes situées au centre de l’espace de chaque voyelle.

Il n’apparait donc aucune idiosyncrasie acoustique dans cette situation. Pour faire le lien avec l’étude

précédente, l’apprentissage sensoriel agit donc comme l’apprentissage par imitation.

Au contraire, les valeurs desmiM sont différentes entre les agents. La dispersion moyenne de ces

valeurs est de 0,1837 Barks en F1 et de 0,6800 Barks en F2. Par ailleurs, nous observons qu’elles sont

très similaires aux valeurs desmien production dont la dispersion moyenne est de 0,1793 Barks en

F1 et de 0,6828 Barks en F2 (voir Table 6.1 pour plus de détails sur la dispersion). Si nous reprenons

les équations correspondantes (voir Eq. 6.6 et Eq.6.11), nous analysons que les valeurs desmi

M

sont

calculées à l’aide du répertoire moteurP(M |OS) et du modèle interne P(S |M) tandis que les

valeurs desmien production sont calculées à partir du répertoire moteurP(M |OS)et de la

trans-formation d’un geste en sonP(S

Env

|M

Env

). Comme il s’agit des mêmes agents, les répertoires

moteurs, dans ces deux équations, sont les mêmes. Si les valeurs desmiM et celles desmien

produc-tion sont similaires, cela signifie donc que le modèle interneP(S|M)est similaire à la distribution

2. Pour rappel, du fait de la formule utilisée, la valeur normalisée des voyelles hautes vaut 0 et celle de la voyelle basse vaut 1.

(a)mi

A

(b)mi

M

(c)mi

P M

(d)mien production

FIGURE 6.6 – Illustration des valeurs des mi en fin d’apprentissage pour les tâches de perception

auditive (a), motrice (b) et perceptuo-motrice (c) et pour la tâche de production (d)

P(S

Env

|M

Env

). Ainsi, nous en déduisons que lors de l’apprentissage sensorimoteur, le modèle

in-terneP(S|M)apprend à approximer de façon quasi parfaite la distributionP(S

Env

|M

Env

). C’est

la conclusion à laquelle nous sommes déjà parvenus lors de l’étude précédente (voir section 6.1.5.1).

Il y a donc des idiosyncrasies en perception selon les théories motrices et celles-ci sont quasiment

identiques à celles en production.

Pour finir, les valeurs des mi

P M

sont également différentes entre agents. Leur localisation est

similaire à celles desmiM (et donc, par suite, à celles desmi de production). Elles sont cependant

moins dispersées puisqu’elles ont une dispersion moyenne de 0,1522 Barks en F1 et de 0,5609 Barks

en F2. Puisque la distribution utilisée pour réaliser la perception perceptuo-motrice est une fusion

entre la distribution de perception auditive et la distribution de perception motrice, les valeurs des

mi

P M

sont un mélange entre les valeurs desmi

A

pour lesquelles la dispersion est quasiment nulle et

celles desmi

M

. Il y a donc des idiosyncrasies également en perception selon les théories

perceptuo-motrices, mais celles-ci diffèrent des idiosyncrasies en perception motrice et des idiosyncrasies en

production.

6.2.5.2 Comparaison des deux études

Maintenant que nous avons observé qu’il apparaît des idiosyncrasies, nous pouvons étudier la

corrélation entre les idiosyncrasies obtenues en perception et en production et surtout les comparer

avec celles obtenues dans l’étude de M&S. Nous affichons, sur la Fig. 6.7, les valeurs desmipour

les trois tâches de perception, comparées à celles de la tâche de production, ainsi que les droites de

régression correspondantes. Nous reportons pour référence, les points et droites obtenus par M&S.

Nous reportons également les pentes de régression dans la Table 6.2 et les coefficients de corrélation

dans la Table 6.3.

(a) Voyelle [e] (b) Voyelle [E] (c) Vowel [o] (d) Vowel [O]

(e) Voyelle [e] M&S (f) Voyelle [E] M&S (g) Vowel [o] M&S (h) Vowel [O] M&S

FIGURE 6.7 – Idiosyncrasies couplées des tâches de perception/production. Haut : Résultats des

si-mulations. Points et courbes de régression linaire pour les idiosyncrasies couplées des prédictions

auditive (en bleu), motrice (en rouge) et perceptuo-motrice (en vert). Bas : Points expérimentaux

et régressions linéaires issues des données de M&S. Chaque colonne correspond à l’une des quatre

voyelles étudiées, dans l’ordre : [e E o O]

D’une manière générale, nous observons que les valeurs desmicouplées obtenues avec le modèle

COSMO ont un comportement global similaire entre chaque voyelle. En étudiant plus spécifiquement

la table des pentes de régression, nous observons que la pente est quasiment nulle pour la perception

auditive, aux alentours de 1 pour la perception motrice et variant entre 0,54 et 0,87 pour la perception

perceptuo-motrice, conformément à nos analyses précédentes.

Comparons maintenant nos résultats avec ceux de M&S. Du fait que nos simulations n’ont pas

pour objectif de reproduire exactement les données obtenues par M&S, mais plutôt leur

comporte-ment global, notre comparaison se veut davantage qualitative que quantitative. Nous réalisons trois

observations importantes.

Premièrement, les valeurs desmicouplées dans nos simulations sont moins dispersées que celles

de M&S. En effet, les valeurs normalisées en F1 des valeurs des mi de production varient entre

10 et 20% tandis que celles de M&S varient de plus de 50%. De même, en perception, les valeurs

normalisées en F1 des valeurs des mi de nos simulations varient au maximum de 20% tandis que

celles de M&S varient de plus de 40%. Nous reviendrons sur ce point en discussion.

Deuxièmement, les pentes de régression obtenues par M&S varient entre 0,4 et 0,6, ce qui est

si-gnificativement supérieur à 0. Ce résultat est incompatible avec les pentes des idiosyncrasies couplées

de perception auditive dont les pentes sont nulles. Ce résultat semble, en revanche, compatible avec les

TABLE 6.2 – Pentes de régression entre les données en production et en perception pour chaque

voyelle [e o E O] de l’étude de M&S comparées aux pentes de régression entre les tâches de perception

et de production dans COSMO pour les systèmes de perception auditif, moteur et perceptuo-moteur

(PM). Nous affichons les niveaux de significativité pour les pentes des données de M&S selon le

format suivant : (supérieur à 0, inférieur à 1). Les niveaux de significativité sont notés∗pourp <0.05,

opourp≥0.05

Voyelles M&S Auditif Moteur PM

[e] 0.5612(∗,o) -0.0103 1.0097 0.5395

[E] 0.6505(∗,o) -0.0009 0.9915 0.6290

[o] 0.6195(∗,o) -0.0044 0.9527 0.6898

[O] 0.4236(∗,∗) 0.0000 0.9619 0.8685

TABLE6.3 – Coefficients de corrélation entre les données en production et en perception pour chaque

voyelle [e o E O] de l’étude de M&S, associées aux coefficients de corrélation entre les données en

perception et en production des simulations dans COSMO pour les systèmes de perception moteur et

perceptuo-moteur (PM)

Vowels M&S Motor PM

[e] 0.5965 0.9976 0.8728

[E] 0.6554 0.9974 0.9573

[o] 0.6153 0.9989 0.9651

[O] 0.6024 0.9987 0.9757

pentes des idiosyncrasies couplées de perception motrice, dont les valeurs sont proches de 1, puisque

les pentes obtenues par M&S ne sont pas significativement inférieure à 1 (sauf pour la voyelle [O]).

Néanmoins, les pentes des idiosyncrasies couplées de perception perceptuo-motrice semblent plus

similaires à celles de M&S.

Troisièmement, les coefficients de corrélation obtenus par M&S varient autour de 0,60 tandis que

les coefficients obtenus pour nos simulations dépassent globalement 0,90 pour les prédictions motrices

et perceptuo-motrices. Cela vient du fait que nos données de simulations sont moins bruitées que les

données expérimentales.

6.2.6 Discussion

6.2.6.1 Synthèse

Nous avons, dans un premier temps, observé des idiosyncrasies auditives dans chacune de nos

tâches sauf pour les valeurs desmiA. Dans un second temps, en comparant nos données avec celles

de M&S, nous avons remarqué que la corrélation obtenue était non nulle et en accord avec celle

trouvée par M&S lorsque la tâche de perception s’effectuait avec un système de prédiction moteur ou

perceptuo-moteur.

plus loin, nous avons observé que les corrélations entre les données en perception et en production

obtenues avec le système de prédiction perceptuo-moteur sont les plus proches de celles obtenues par

M&S, ce qui suggère que la perception perceptuo-motrice est plus pertinente que les deux autres.

6.2.6.2 Interprétation

L’absence de variabilité dans les valeurs desmi

A

peut surprendre. Comme dit précédemment, cela

s’explique par le fait que le répertoire auditif P(S |O

L

)sur lesquelles elles s’appuient est similaire

entre tous les agents puisqu’il approximent pour chaque agent le même environnement. En cela, les

valeurs desmi

A

se rapprochent de celles desmi obtenues par l’apprentissage par imitation dans la

section précédente. En supposant que l’environnement diffère entre les agents, nous pouvons nous

attendre à ce que les valeurs desmiAvarient elles aussi et donc que des idiosyncrasies apparaissent.

À l’inverse, suite à l’apprentissage par communication les valeurs desmi

M

diffèrent et ce, même avec

un environnement identique.

À ce stade, l’interprétation à laquelle nous arrivons est que les représentations fournies par la voie

de décodage auditive, ici correspondant aux valeurs desmi

A, sont issues des données de

l’environne-ment tandis que les représentations issues de la voie de décodage moteur, correspondant aux valeurs

desmiM, sont basées sur des composantes endogènes, des tirages propres à chaque agent. Au travers

des idiosyncrasies, ces deux comportements rendent compte de deux nouvelles différences entre

l’ap-prentissage sensoriel et l’apl’ap-prentissage moteur. Ainsi, nous proposons que l’apl’ap-prentissage sensoriel

est avant tout un apprentissage exogène centré sur les données de l’environnement tandis que

l’ap-prentissage moteur est avant tout un apl’ap-prentissage endogène relatif à chaque agent. Cela pourrait être

une nouvelle explication de la complémentarité entre les représentations sensorielles et motrices que

nous avons évoquée au chapitre précédent.

6.3 Conclusion

Ce chapitre était dédié à l’analyse des idiosyncrasies. Dans une première étude, nous avons analysé

leur apparition et avons remarqué qu’elles dépendent principalement de l’apprentissage moteur, dans

sa version dite « d’apprentissage communicatif ». Dans une seconde étude, nous avons comparé la

corrélation entre les idiosyncrasies en perception et en production avec des données expérimentales

et avons obtenu une similarité lorsque les représentations motrices sont utilisées en perception. Ces

deux résultats accentuent les différences entre les représentations sensorielles et motrices et confirment

l’importance des représentations motrices en perception. Ces études restent néanmoins centrées sur

les voyelles. Une nouvelle étape de complexification est de s’intéresser à des unités distinctives plus

variées commes des consonnes ou des syllabes. C’est le sujet du prochain chapitre.

La composition interne des unités

phonétiques et COSMO SylPhon

Publication :

— Barnaud, M.-L., Diard, J., Bessière, P., et Schwartz, J.-L. (2017a). Assessing

phonologi-cal learning in COSMO, a Bayesian model of speech communication. In The 7th Joint

IEEE International Conference on Developmental and Learning and on Epigenetic Robotics

(ICDL-Epirob 2017)

Dans les deux précédents chapitres, les unités distinctives utilisées ont évolué d’unités discrètes

abstraites à des phonèmes vocaliques. Cependant, l’utilisation et l’apparition des phonèmes, surtout

durant l’apprentissage, sont souvent remises en question : certains chercheurs affirment notamment

que l’unité de base apparaissant lors du développement n’est pas le phonème mais la syllabe (voir

section 3.2.3).

Dans ce chapitre, nous nous focalisons davantage sur l’étude de la structure cognitive des unités

et étudions en particulier l’acquisition des syllabes et des phonèmes. Dans ce contexte, nous avons

deux objectifs : nous souhaitons vérifier, d’une part, qu’un agent apprenant COSMO est capable

d’ap-prendre des unités distinctives et, d’autre part, qu’il est capable de communiquer avec son maître.

Cet apprentissage s’effectue sous deux conditions : 1) l’agent n’a pas de connaissances préalables

sur le nombre et le contenu de ses catégories et 2) l’invariant consonantique n’est pas explicitement

implémenté.

Ces deux conditions sont les challenges de ce chapitre et diffèrent des précédentes études

effec-tuées. Après les avoir précisées, nous nous intéressons à l’implémentation du modèle. En plus de la

prise en compte des deux conditions, l’utilisation des unités distinctives de différents types,

sylla-biques et phonémiques, nécessite une extension du modèle. Nous présentons, à cette occasion, une

nouvelle version du modèle COSMO, nommée COSMO SylPhon (Syl pour syllabe et Phon pour

pho-nème). Par la suite, nous détaillons les étapes d’apprentissage et leurs résultats respectifs. Pour finir,

nous analysons la capacité de communication de ce nouveau modèle.

7.1 Hypothèses de l’étude

Implémenter une version syllabique du modèle COSMO n’est pas novateur. Cela a déjà été

réa-lisé par Laurent et al. (2017) dans une extension du modèle nommée COSMO-S. Ce modèle montre

notamment que la complémentarité entre les représentations auditives et motrices s’étend au contenu

cognitif des unités distinctives puisque les voyelles semblent mieux discriminées par les

représenta-tions auditives tandis que les consonnes semblent mieux discriminées par les représentareprésenta-tions motrices.

Le modèle COSMO SylPhon, que nous proposons dans cette étude, s’inspire de ce modèle pour

sa partie syllabique et l’étend, en plus, à l’apprentissage des catégories phonémiques. Par ailleurs,

son implémentation et son apprentissage diffèrent du modèle COSMO-S sur deux points cruciaux.

Premièrement, l’agent COSMO apprenant ne possède plus de connaissances préalables sur le nombre

exact d’unités distinctives dans sa langue et n’a plus d’accès direct aux catégories phonétiques du

maître. Deuxièmement, dans COSMO SylPhon, les invariants phonémiques, notamment l’invariant

consonantique, ne sont plus implémentés de façon aussi explicite que dans COSMO-S. Ceci nécessite,

en conséquence, de contraindre l’apprentissage.