7.5 Discussion générale
8.1.2 Synthèse des enjeux phonétiques
Comme le résume la section précédente, tout au long de ce manuscrit, nous nous focalisons sur
trois aspects de la phonétique, à savoir : la caractérisation, la variabilité et le contenu cognitif des
unités distinctives. Pour chacun de ces points, nous rappelons nos hypothèses de modélisation et nous
discutons des limites des simulations effectuées et de quelques perspectives futures.
8.1.2.1 Caractérisation des unités distinctives
Nous discutons ici de notre implémentation des représentations internes des unités de la parole.
La discussion s’effectue autour de deux points : les représentations utilisées dans notre modèle et leur
composition.
Les représentations considéréesDans toutes les versions de COSMO, nous n’avons considéré
que deux types de représentations des catégories phonétiques : des représentations sensorielles,
prin-cipalement auditives et des représentations motrices. Comme nous l’avons vu dans le chapitre 2, ce
sont les deux principales représentations permettant de caractériser les catégories phonétiques.
Les représentations sensorielles dans COSMO générique correspondent dans nos
implémenta-tions à des représentaimplémenta-tions auditives. Si elles sont assez peu détaillées dans COSMO 1D, elles
de-viennent plus précises dans COSMO-V et COSMO SylPhon dans lesquels elles correspondent à
l’espace formantique. L’espace formantique est souvent utilisé en phonétique pour caractériser les
propriétés acoustiques des catégories phonétiques. Cependant, les formants ne sont qu’une
compo-sante des représentations auditives. Ces dernières sont vraisemblablement plus riches et comprennent,
par exemple, des propriétés acoustiques variées : des bruits d’explosion et de friction, des pentes
spectrales, des bandes passantes, des équilibres entre régions spectrales, du voisement, des propriétés
prosodiques, etc.
Par ailleurs, dans le modèle COSMO générique, la variableSest sensorielle. Même si nous
l’inter-prétons comme auditive puisque les catégories phonétiques sont souvent définies comme telle, nous
pourrions envisager que cette variable S soit un espace multisensoriel incluant d’autres modalités
comme, par exemple, les représentations somatosensorielles (Patri et al., 2016), ou la vision. Une
ver-sion plus élaborée des représentations sensorielles est, à ce titre, présentée dans la prochaine section.
De leur côté, les représentations motrices sont également peu détaillées dans COSMO 1D, puis
sont implémentées comme un espace de configurations articulatoires dans COSMO-V et COSMO
SylPhon, notamment du fait de l’utilisation du modèle VLAM. La notion de « configuration » fait ici
référence à la forme générale du conduit vocal à un moment donné tandis que la notion «
d’articula-toire » fait référence aux articulateurs utilisés pour réaliser cette configuration. Nous en considérons
trois : les lèvres, la langue et la mâchoire. Ainsi ce que nous nommons « configuration articulatoire »
correspond plus exactement à la forme et à la position de certains articulateurs à un moment donné
(voir également la distinction entre moteur et articulatoire, dans le chapitre 3). Cette caractérisation
est, entre autres, incomplète puisqu’elle ne permet pas de modéliser toutes les catégories phonétiques.
Le problème apparaît notamment dans l’implémentation des consonnes du modèle COSMO SylPhon.
Bien que nous ayons pu contrer ces inconvénients et développer une version de COSMO SylPhon
suffisamment satisfaisante pour nos études, une version améliorée de cette espace moteur est
souhai-table.
Il se peut que ces articulateurs ne soient pas assez précis. Une des améliorations possibles serait
d’avoir un espace articulatoire de plus grande dimension, pour prendre en compte d’autres paramètres
articulatoires. Nous pourrions également remplacer les articulateurs par les muscles du conduit vocal
ou par l’ensemble des cavités de résonance formant le conduit vocal (voir par exemple Schroeter et
Sondhi, 1994, pour une revue de modèles existants). Néanmoins, connaître la position des composants
du conduit vocal n’est en réalité par suffisant pour produire du son. Il faut également un modèle
des cordes vocales. Ainsi, VLAM nécessite d’être couplé à un modèle implémentant le contrôle de
la source vocale pour pouvoir produire toutes les catégories phonétiques. Autrement dit, le modèle
trachée/cordes vocales implémente l’air à transformer en son, tandis que VLAM implémente la cavité
permettant de réaliser cette transformation. D’un point de vue computationnel, intégrer un modèle
de source vocale ajoute certainement de nouveaux paramètres et donc de nouvelles dimensions pour
caractériser les représentations motrices.
L’absence de structure des composantes sensorielles et motricesOutre les problèmes relatifs
au choix et au nombre de dimensions des espaces sensoriels et moteurs, il reste un problème majeur
non évoqué : la hiérarchie des représentations. Prenons le cas de l’espace sensoriel dans COSMO
générique. Dans nos implémentations, nous ne modélisons que l’espace sensoriel correspondant aux
catégories phonétiques choisies. Or, durant une tâche quelconque, par exemple, une tâche de
percep-tion, le cerveau ne reçoit pas directement le signal acoustique sous la forme d’une représentation
au-ditive prétraitée, reliée directement aux catégories phonétiques correspondantes. Le signal acoustique
reçu doit être traité au préalable avant de pouvoir être perçu comme une catégorie phonétique (voir par
exemple Poeppel et al., 2012). Le fait que nous utilisions un signal sensoriel synthétique préalablement
découpé facilite le problème. Cela évite, d’une part, tout le traitement sensoriel lié à la segmentation
du son et, d’autre part, facilite le prétraitement pour ne garder que les paramètres utiles à la
caté-gorisation. Mais, si nous envisageons d’utiliser une représentation sensorielle plus réaliste, cela
né-cessitera l’ajout d’une ou plusieurs variables sensorielles, convenablement structurées, indépendantes
des catégories phonétiques, et permettant de passer du signal sensoriel acoustique aux représentations
auditives adéquates pour la catégorisation phonétique.
Par ailleurs, nous pouvons considérer que cette décomposition est commencée dans COSMO
Syl-Phon puisque le modèle comprend des représentations auditives liées aux syllabes, des représentations
auditives liées aux phonèmes et des représentations auditives liées aux représentations motrices. Si, à
l’origine, ces trois sortes de variables sont un besoin computationnel, cette décomposition peut
éga-lement être envisagée d’un point de vue théorique. Dans le modèle, ces trois types de représentations
sont modélisés sous la même forme formantique (F1/F2 pour les représentations vocaliques et F2/F3
pour les représentations consonantiques) et connectés par une variable de cohérence pour assurer
leur égalité. Nous pourrions les envisager comme trois types de variables sensorielles indépendants,
représentant chacun une partie du signal sensoriel de base. Par la suite, une variable de plus haut
ni-veau pourrait assurer la liaison entre chacune de ces représentations ou les fusionner pour avoir une
vue d’ensemble du signal perçu. Néanmoins, ces pistes de réflexion nécessiteraient une évaluation
rigoureuse en lien avec la littérature en neurosciences. Quelle que soit la nature de ces réflexions, le
développement de multiples représentations sensorielles reste nécessaire si nous souhaitons mettre en
œuvre un modèle cognitif plus réaliste.
Les mêmes questions se posent sur les représentations de l’espace moteur. Nos représentations
motrices sont pour le moment très limitées. Cette limite a déjà été un obstacle notamment dans la
variante COSMO SylPhon puisque nous avons dû explicitement créer une représentation motrice
∆M, associée aux catégories consonantiques, distincte de la représentation motriceM
F, associée
aux représentations sensorielles. Cependant, cette séparation entre les deux représentations motrices
n’est qu’une infime partie de la complexité de l’espace moteur.
8.1.2.2 Variabilité des unités distinctives
Divers aspects de la variabilité des unités phonétiques ont été étudiés dans ce manuscrit. Nous
commençons par discuter de la variabilité intra-locuteur avant de nous intéresser à la variabilité
inter-locuteur. Qu’elle soit inter ou intra-locuteur, nous montrons que la variabilité des unités phonétiques
apparaît comme cruciale dans nos analyses.
Variabilité intra-locuteur Un premier type de variabilité jouant un rôle important dans nos
mo-dèles est la variabilité intra-locuteur c’est-à-dire la variabilité des unités phonétiques se trouvant chez
un même locuteur. À travers l’utilisation de représentations gaussiennes, nous avons implicitement
supposé que les catégories phonétiques sont, dans chacun de leur répertoire, représentées par un
pro-totype (la moyenne des gaussiennes) mais qu’un écart autour de ce propro-totype ne perturbe pas la
caté-gorisation (la variance des gaussiennes).
Cette variabilité est primordiale car elle est au cœur de la propriété « bande étroite/bande large »
que nous avons définie. En effet, la variabilité intra-locuteur est ce qui diffère majoritairement entre
la branche auditive et la branche motrice de notre modèle : une petite variabilité, symbolisée par une
faible variance, comme celle de la branche auditive, implique une catégorisation efficace des signaux
prototypiques, et une grande variabilité, symbolisée par une forte variance, comme celle de la branche
motrice, implique des capacités de généralisation et de meilleures performances dans des conditions
adverses.
Ce modèle gaussien, associant position d’un prototype et variance autour, est en accord avec les
données de la littérature et est également similaire aux différentes implémentations que l’on trouve
dans des modèles computationnels phonétiques (de Boer et Kuhl, 2003; Feldman et al., 2009a;
Klein-schmidt et Jaeger, 2011; McMurray et al., 2009). Néanmoins, l’utilisation de gaussiennes n’est pas
le seul moyen pour la représenter. Il serait intéressant de vérifier si les propriétés observées dans
nos études se retrouvent en utilisant d’autres formes paramétriques plus adaptées pour représenter la
complexité du spectre de parole.
Variabilité inter-locuteur Un second aspect de la variabilité des unités phonétiques concerne la
variabilité inter-locuteur, c’est-à-dire les différences existant entre les différents agents. Celle-ci est
analysée notamment à travers les idiosyncrasies auditives comme le montrent les études du chapitre 5.
Dans ces études, nous cherchons d’abord à définir comment les idiosyncrasies apparaissent durant
l’apprentissage et nous nous focalisons ensuite sur les corrélations entre les idiosyncrasies en
per-ception et celles en production. Les idiosyncrasies étudiées restent néanmoins limitées puisque nous
nous focalisons dans nos études sur les différences formantiques. Il est probable que la variabilité
idiosyncratique concerne davantage de paramètres.
Même si la variabilité inter-locuteur des unités phonétiques est centrale dans deux de nos études,
il est cependant nécessaire qu’elle soit liée à d’autres types de variabilités. En effet, nous observons
dans nos simulations qu’une diversité des développements, c’est-à-dire différents agents apprenants,
dans un même contexte d’apprentissage, autrement dit avec un maître unique, génère des
représen-tations différentes d’un agent à l’autre. L’utilisation de multiples agents avec un maître unique nous
permet de repérer les phénomènes dépendant des données d’apprentissage de ceux plus robustes et
intrinsèques à notre modélisation. Ainsi, dans COSMO SylPhon, nous pouvons obtenir d’un agent
à l’autre, d’une part, des différences de positionnement des noyaux gaussiens, voire de nombre de
noyaux sélectionnés et, d’autre part, des tendances à la convergence sur un nombre proche de noyaux
(autour de 7 pour les voyelles). De plus, les différences observées n’empêchent pas de converger vers
un système viable, permettant de communiquer efficacement avec le maître. Cela montre que la
struc-ture des représentations des catégories phonétiques peut différer d’un agent à l’autre sans pour autant
perturber la communication.
Un autre facteur important de variabilité inter-locuteur, que nous n’avons pas considéré dans ce
travail, est celui de la variabilité morphologique liée à l’âge, à la taille et au sexe. Les formants associés
à un phonème donné dépendent en effet de la taille et de la forme du conduit vocal du locuteur
(voir une revue dans Ménard et al., 2004). Ces différences conduisent au problème, bien connu, de
la normalisation ayant déclenché de nombreuses études. Celles-ci peuvent s’organiser en deux axes
principaux : la normalisation extrinsèque, impliquant un apprentissage de propriétés d’un locuteur
donné (voir par exemple Johnson, 1995), et la normalisation intrinsèque, dans laquelle des paramètres
extraits du signal incident conduisent au calcul de paramètres normalisés supposés éliminer la majeure
partie des influences de ces variations entre locuteurs (voir par exemple Ménard et al., 2002).
Cependant, dans COSMO, tous les agents sont identiques. En effet, tous nos agents se servent
d’un même conduit vocal issu du modèle VLAM pour réaliser la transformation d’une représentation
motrice en signal sensoriel. Ce conduit vocal a les mêmes propriétés quel que soit l’agent et ne prend
notamment pas en compte les différences entre un bébé et un adulte. Ainsi, notre choix de
simpli-cité, impliquant des agents et un maître morphologiquement identiques, peut être vu comme un cadre
computationnel dans lequel les données perçues et produites sont préalablement normalisées, comme
le proposent les études sur la normalisation intrinsèque. La question de la normalisation reste
néan-moins un enjeu important pour la suite de ces travaux. La mise en œuvre de paradigmes d’interaction
entre agents COSMO morphologiquement différents pourrait produire des résultats intéressants dans
le développement d’outils de normalisation adaptés à la situation de communication.
8.1.2.3 Structure cognitive des unités distinctives
Comment sont structurées les unités distinctives dans le cerveau ? Nous discutons de cette question
autour de trois notions : leur caractère implicite ou explicite, leur composition phonétique et syllabique
et la multiplicité de leurs représentations.
L’existence d’unités distinctives discrètes explicites remise en question Utiliser le modèle
COSMO générique nous amène à considérer que les catégories phonétiques existent explicitement
et correspondent à des unités discrètes. Cette hypothèse est soutenue dans toutes les implémentations
du modèle COSMO de base que ce soit COSMO-1D ou COSMO-V. Dans ce modèle, une unité
pho-nétique est représentée par un objet o et celui-ci correspond par la suite à une unique distribution
gaussienne moteur dans le répertoire moteur et une unique distribution gaussienne sensoriel dans le
répertoire auditif. Ainsi, chaque agent COSMO possède dès le départ et avant tout apprentissage, une
représentation discrète complète de ses catégories phonétiques.
Par la suite, cette considération a été remise en question dans les choix de modélisation de sa
variante COSMO SylPhon. Dans ce dernier modèle, les catégories phonétiques, qu’elles soient
pho-némiques ou syllabiques, ne sont plus explicitement représentées dans le modèle. Pour rappel, les
catégories phonétiques correspondent à des noyaux gaussiens présents en nombre bien supérieur aux
catégories phonétiques qu’ils sont censés représenter. Cela signifie que les catégories phonétiques ne
sont plus des unités discrètes à part entière mais qu’elles correspondent à des unités dépendantes de
l’espace dans lequel elles sont représentées (dans notre cas soit sensoriel, soit moteur). Par ailleurs,
à la fin de l’apprentissage, même si nous considérons que seuls les noyaux gaussiens les plus
utili-sés, c’est-à-dire ayant un poids non négligeable, sont représentatifs des catégories phonétiques, leur
nombre n’est pas toujours équivalent au nombre de catégories puisqu’il existe des catégories
phoné-tiques représentées par plusieurs noyaux gaussiens.
Par la suite, nous pourrions imaginer un mécanisme cognitif de plus haut niveau permettant de
passer de cette représentation implicite sous forme de noyaux gaussiens à des catégories phonétiques
discrètes explicites. Comme nos noyaux gaussiens sont reliés soit à l’espace sensoriel, soit à
l’es-pace moteur, nous pourrions imaginer des catégories phonétiques discrètes sensorimotrices reliées aux
noyaux gaussiens sensoriels et moteurs des catégories correspondantes. Par exemple, en réalisant une
table de correspondance entre les noyaux sensoriels et les noyaux moteurs, nous pourrions former
l’en-semble des unités phonétiques sensorimotrices. Cette fusion des noyaux gaussiens sensoriels et
mo-teurs en catégories phonétiques sensorimotrices serait en accord avec les théories perceptuo-motrices
dont avons discuté préalablement. Néanmoins, le mécanisme permettant de passer des noyaux
gaus-siens aux catégories phonétiques sensorimotrices n’a rien d’évident et mériterait certainement de plus
amples réflexions notamment sur les méthodes de classification.
Actuellement, aucun de nos modèles ne permet réellement de trancher en faveur de l’une ou l’autre
des solutions. Néanmoins, sans pour autant affirmer que les catégories phonétiques se limitent à une
représentation implicite ou explicite, notre modélisation permet de soulever une question importante
sur l’implémentation des catégories phonétiques.
Syllabes vs. phonèmesLa nature des catégories phonétiques dans la version de base de COSMO
n’est pas une question centrale. En effet, COSMO, tel qu’il est présenté dans le chapitre 3, est composé
d’objetsOSetOLqui ne sont pas spécifiés et qui peuvent donc représenter n’importe quelle catégorie
phonétique. Dans COSMO-1D, utilisé dans la première étude du chapitre 4, l’implémentation reste
d’ailleurs assez floue sur la nature des objets puisqu’il s’agit simplement de contrastes phonétiques.
Les deux objetsOSetOLpeuvent donc aussi bien représenter des phonèmes que des syllabes. Dans
cette étude, nous avons laissé volontairement cette question floue car non seulement elle n’est pas le
sujet central de l’étude, mais elle permet de montrer que les résultats obtenus ne sont pas spécifiques
à la nature des catégories phonétiques choisies. Un apprentissage supervisé permettrait donc de faire
émerger n’importe quelle unité phonétique.
C’est à travers COSMO SylPhon que nous abordons davantage la question de la nature des unités
phonétiques. Ce modèle nous permet notamment d’étudier l’émergence des catégories phonémiques à
partir de l’unité syllabique. Cela nous permet de montrer que, d’une part, les syllabes et les phonèmes
peuvent tous deux émerger à partir d’un apprentissage non supervisé basé sur la perception d’unités
syllabiques et que, d’autre part, les phonèmes émergent de deux façon différentes : les voyelles sont
mieux apprises dans la branche sensorielle du modèle tandis que les consonnes sont mieux apprises
dans la branche motrice. Ce résultat suggère que les phonèmes pourraient être acquis sur la base de
composantes perceptuo-motrices.
Bien entendu, notre modélisation possède un certain nombre de limites concernant les catégories
étudiées. Nous en soulevons deux principales. La première est de ne considérer que des syllabesCV.
Nous pourrions envisager des syllabes plus complexes pouvant traiter tout type de syllabe comme,
par exemple, la syllabe [strakt]. La seconde est de ne modéliser que des consonnes plosives. Pour
ces deux limites, il s’agit davantage de choix computationnels que de choix théoriques. Une
pers-pective serait donc d’avoir une version de COSMO SylPhon capable de gérer des unités phonétiques
plus complexes. L’idéal serait d’avoir un modèle pouvant traiter l’ensemble des unités d’une langue
donnée.
Une double représentationUne particularité du modèle COSMO est d’avoir deux variables pour
les catégories phonétiques. Il y a d’une part des catégories phonétiques associées aux représentations
sensorielles, O
L, et d’autre part des catégories phonétiques associées aux représentations motrices,OS. Cette particularité a ses avantages puisqu’elle nous permet de représenter et comparer dans un
même modèle les différentes théories de la perception. Néanmoins, la question de savoir s’il s’agit
d’un choix théorique ou purement computationnel peut se poser.
Premièrement, il s’agit d’un choix en partie computationnel puisque la programmation bayésienne
et la décomposition de la conjointe interdisent d’avoir deux fois la même variable en partie gauche.
Dans le modèle COSMO, il est donc impossible d’avoir, en même temps, un priorP(O)et un
classi-fieur sensorielP(O|S). C’est pour cela que la variableOest décomposée en deux objetsOS etOLet
est reliée ensuite par une variable de cohérenceC. Comme déjà expliqué précédemment, le rôle de la
variable de cohérence est similaire à celui d’un interrupteur. S’il est « non activé », les deux objets sont
indépendants et agissent de manière séparée. S’il est « activé », les deux objets sont reliés et
consi-dérés comme identiques. Cela peut être considéré aussi bien comme l’existence d’une fusion entre
les deux objets que comme l’utilisation d’un unique objetO. Ainsi, bien qu’il y ait deux objets dans
le modèle, ceci peut s’interpréter comme l’utilisation d’un unique objet sous certaines conditions. Le
modèle en lui-même ne permet donc pas de trancher.
Deuxièmement, d’un point de vue théorique, cette vision dichotomique semble compatible avec
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 188-194)