• Aucun résultat trouvé

7.5 Discussion générale

8.1.2 Synthèse des enjeux phonétiques

Comme le résume la section précédente, tout au long de ce manuscrit, nous nous focalisons sur

trois aspects de la phonétique, à savoir : la caractérisation, la variabilité et le contenu cognitif des

unités distinctives. Pour chacun de ces points, nous rappelons nos hypothèses de modélisation et nous

discutons des limites des simulations effectuées et de quelques perspectives futures.

8.1.2.1 Caractérisation des unités distinctives

Nous discutons ici de notre implémentation des représentations internes des unités de la parole.

La discussion s’effectue autour de deux points : les représentations utilisées dans notre modèle et leur

composition.

Les représentations considéréesDans toutes les versions de COSMO, nous n’avons considéré

que deux types de représentations des catégories phonétiques : des représentations sensorielles,

prin-cipalement auditives et des représentations motrices. Comme nous l’avons vu dans le chapitre 2, ce

sont les deux principales représentations permettant de caractériser les catégories phonétiques.

Les représentations sensorielles dans COSMO générique correspondent dans nos

implémenta-tions à des représentaimplémenta-tions auditives. Si elles sont assez peu détaillées dans COSMO 1D, elles

de-viennent plus précises dans COSMO-V et COSMO SylPhon dans lesquels elles correspondent à

l’espace formantique. L’espace formantique est souvent utilisé en phonétique pour caractériser les

propriétés acoustiques des catégories phonétiques. Cependant, les formants ne sont qu’une

compo-sante des représentations auditives. Ces dernières sont vraisemblablement plus riches et comprennent,

par exemple, des propriétés acoustiques variées : des bruits d’explosion et de friction, des pentes

spectrales, des bandes passantes, des équilibres entre régions spectrales, du voisement, des propriétés

prosodiques, etc.

Par ailleurs, dans le modèle COSMO générique, la variableSest sensorielle. Même si nous

l’inter-prétons comme auditive puisque les catégories phonétiques sont souvent définies comme telle, nous

pourrions envisager que cette variable S soit un espace multisensoriel incluant d’autres modalités

comme, par exemple, les représentations somatosensorielles (Patri et al., 2016), ou la vision. Une

ver-sion plus élaborée des représentations sensorielles est, à ce titre, présentée dans la prochaine section.

De leur côté, les représentations motrices sont également peu détaillées dans COSMO 1D, puis

sont implémentées comme un espace de configurations articulatoires dans COSMO-V et COSMO

SylPhon, notamment du fait de l’utilisation du modèle VLAM. La notion de « configuration » fait ici

référence à la forme générale du conduit vocal à un moment donné tandis que la notion «

d’articula-toire » fait référence aux articulateurs utilisés pour réaliser cette configuration. Nous en considérons

trois : les lèvres, la langue et la mâchoire. Ainsi ce que nous nommons « configuration articulatoire »

correspond plus exactement à la forme et à la position de certains articulateurs à un moment donné

(voir également la distinction entre moteur et articulatoire, dans le chapitre 3). Cette caractérisation

est, entre autres, incomplète puisqu’elle ne permet pas de modéliser toutes les catégories phonétiques.

Le problème apparaît notamment dans l’implémentation des consonnes du modèle COSMO SylPhon.

Bien que nous ayons pu contrer ces inconvénients et développer une version de COSMO SylPhon

suffisamment satisfaisante pour nos études, une version améliorée de cette espace moteur est

souhai-table.

Il se peut que ces articulateurs ne soient pas assez précis. Une des améliorations possibles serait

d’avoir un espace articulatoire de plus grande dimension, pour prendre en compte d’autres paramètres

articulatoires. Nous pourrions également remplacer les articulateurs par les muscles du conduit vocal

ou par l’ensemble des cavités de résonance formant le conduit vocal (voir par exemple Schroeter et

Sondhi, 1994, pour une revue de modèles existants). Néanmoins, connaître la position des composants

du conduit vocal n’est en réalité par suffisant pour produire du son. Il faut également un modèle

des cordes vocales. Ainsi, VLAM nécessite d’être couplé à un modèle implémentant le contrôle de

la source vocale pour pouvoir produire toutes les catégories phonétiques. Autrement dit, le modèle

trachée/cordes vocales implémente l’air à transformer en son, tandis que VLAM implémente la cavité

permettant de réaliser cette transformation. D’un point de vue computationnel, intégrer un modèle

de source vocale ajoute certainement de nouveaux paramètres et donc de nouvelles dimensions pour

caractériser les représentations motrices.

L’absence de structure des composantes sensorielles et motricesOutre les problèmes relatifs

au choix et au nombre de dimensions des espaces sensoriels et moteurs, il reste un problème majeur

non évoqué : la hiérarchie des représentations. Prenons le cas de l’espace sensoriel dans COSMO

générique. Dans nos implémentations, nous ne modélisons que l’espace sensoriel correspondant aux

catégories phonétiques choisies. Or, durant une tâche quelconque, par exemple, une tâche de

percep-tion, le cerveau ne reçoit pas directement le signal acoustique sous la forme d’une représentation

au-ditive prétraitée, reliée directement aux catégories phonétiques correspondantes. Le signal acoustique

reçu doit être traité au préalable avant de pouvoir être perçu comme une catégorie phonétique (voir par

exemple Poeppel et al., 2012). Le fait que nous utilisions un signal sensoriel synthétique préalablement

découpé facilite le problème. Cela évite, d’une part, tout le traitement sensoriel lié à la segmentation

du son et, d’autre part, facilite le prétraitement pour ne garder que les paramètres utiles à la

caté-gorisation. Mais, si nous envisageons d’utiliser une représentation sensorielle plus réaliste, cela

né-cessitera l’ajout d’une ou plusieurs variables sensorielles, convenablement structurées, indépendantes

des catégories phonétiques, et permettant de passer du signal sensoriel acoustique aux représentations

auditives adéquates pour la catégorisation phonétique.

Par ailleurs, nous pouvons considérer que cette décomposition est commencée dans COSMO

Syl-Phon puisque le modèle comprend des représentations auditives liées aux syllabes, des représentations

auditives liées aux phonèmes et des représentations auditives liées aux représentations motrices. Si, à

l’origine, ces trois sortes de variables sont un besoin computationnel, cette décomposition peut

éga-lement être envisagée d’un point de vue théorique. Dans le modèle, ces trois types de représentations

sont modélisés sous la même forme formantique (F1/F2 pour les représentations vocaliques et F2/F3

pour les représentations consonantiques) et connectés par une variable de cohérence pour assurer

leur égalité. Nous pourrions les envisager comme trois types de variables sensorielles indépendants,

représentant chacun une partie du signal sensoriel de base. Par la suite, une variable de plus haut

ni-veau pourrait assurer la liaison entre chacune de ces représentations ou les fusionner pour avoir une

vue d’ensemble du signal perçu. Néanmoins, ces pistes de réflexion nécessiteraient une évaluation

rigoureuse en lien avec la littérature en neurosciences. Quelle que soit la nature de ces réflexions, le

développement de multiples représentations sensorielles reste nécessaire si nous souhaitons mettre en

œuvre un modèle cognitif plus réaliste.

Les mêmes questions se posent sur les représentations de l’espace moteur. Nos représentations

motrices sont pour le moment très limitées. Cette limite a déjà été un obstacle notamment dans la

variante COSMO SylPhon puisque nous avons dû explicitement créer une représentation motrice

∆M, associée aux catégories consonantiques, distincte de la représentation motriceM

F

, associée

aux représentations sensorielles. Cependant, cette séparation entre les deux représentations motrices

n’est qu’une infime partie de la complexité de l’espace moteur.

8.1.2.2 Variabilité des unités distinctives

Divers aspects de la variabilité des unités phonétiques ont été étudiés dans ce manuscrit. Nous

commençons par discuter de la variabilité intra-locuteur avant de nous intéresser à la variabilité

inter-locuteur. Qu’elle soit inter ou intra-locuteur, nous montrons que la variabilité des unités phonétiques

apparaît comme cruciale dans nos analyses.

Variabilité intra-locuteur Un premier type de variabilité jouant un rôle important dans nos

mo-dèles est la variabilité intra-locuteur c’est-à-dire la variabilité des unités phonétiques se trouvant chez

un même locuteur. À travers l’utilisation de représentations gaussiennes, nous avons implicitement

supposé que les catégories phonétiques sont, dans chacun de leur répertoire, représentées par un

pro-totype (la moyenne des gaussiennes) mais qu’un écart autour de ce propro-totype ne perturbe pas la

caté-gorisation (la variance des gaussiennes).

Cette variabilité est primordiale car elle est au cœur de la propriété « bande étroite/bande large »

que nous avons définie. En effet, la variabilité intra-locuteur est ce qui diffère majoritairement entre

la branche auditive et la branche motrice de notre modèle : une petite variabilité, symbolisée par une

faible variance, comme celle de la branche auditive, implique une catégorisation efficace des signaux

prototypiques, et une grande variabilité, symbolisée par une forte variance, comme celle de la branche

motrice, implique des capacités de généralisation et de meilleures performances dans des conditions

adverses.

Ce modèle gaussien, associant position d’un prototype et variance autour, est en accord avec les

données de la littérature et est également similaire aux différentes implémentations que l’on trouve

dans des modèles computationnels phonétiques (de Boer et Kuhl, 2003; Feldman et al., 2009a;

Klein-schmidt et Jaeger, 2011; McMurray et al., 2009). Néanmoins, l’utilisation de gaussiennes n’est pas

le seul moyen pour la représenter. Il serait intéressant de vérifier si les propriétés observées dans

nos études se retrouvent en utilisant d’autres formes paramétriques plus adaptées pour représenter la

complexité du spectre de parole.

Variabilité inter-locuteur Un second aspect de la variabilité des unités phonétiques concerne la

variabilité inter-locuteur, c’est-à-dire les différences existant entre les différents agents. Celle-ci est

analysée notamment à travers les idiosyncrasies auditives comme le montrent les études du chapitre 5.

Dans ces études, nous cherchons d’abord à définir comment les idiosyncrasies apparaissent durant

l’apprentissage et nous nous focalisons ensuite sur les corrélations entre les idiosyncrasies en

per-ception et celles en production. Les idiosyncrasies étudiées restent néanmoins limitées puisque nous

nous focalisons dans nos études sur les différences formantiques. Il est probable que la variabilité

idiosyncratique concerne davantage de paramètres.

Même si la variabilité inter-locuteur des unités phonétiques est centrale dans deux de nos études,

il est cependant nécessaire qu’elle soit liée à d’autres types de variabilités. En effet, nous observons

dans nos simulations qu’une diversité des développements, c’est-à-dire différents agents apprenants,

dans un même contexte d’apprentissage, autrement dit avec un maître unique, génère des

représen-tations différentes d’un agent à l’autre. L’utilisation de multiples agents avec un maître unique nous

permet de repérer les phénomènes dépendant des données d’apprentissage de ceux plus robustes et

intrinsèques à notre modélisation. Ainsi, dans COSMO SylPhon, nous pouvons obtenir d’un agent

à l’autre, d’une part, des différences de positionnement des noyaux gaussiens, voire de nombre de

noyaux sélectionnés et, d’autre part, des tendances à la convergence sur un nombre proche de noyaux

(autour de 7 pour les voyelles). De plus, les différences observées n’empêchent pas de converger vers

un système viable, permettant de communiquer efficacement avec le maître. Cela montre que la

struc-ture des représentations des catégories phonétiques peut différer d’un agent à l’autre sans pour autant

perturber la communication.

Un autre facteur important de variabilité inter-locuteur, que nous n’avons pas considéré dans ce

travail, est celui de la variabilité morphologique liée à l’âge, à la taille et au sexe. Les formants associés

à un phonème donné dépendent en effet de la taille et de la forme du conduit vocal du locuteur

(voir une revue dans Ménard et al., 2004). Ces différences conduisent au problème, bien connu, de

la normalisation ayant déclenché de nombreuses études. Celles-ci peuvent s’organiser en deux axes

principaux : la normalisation extrinsèque, impliquant un apprentissage de propriétés d’un locuteur

donné (voir par exemple Johnson, 1995), et la normalisation intrinsèque, dans laquelle des paramètres

extraits du signal incident conduisent au calcul de paramètres normalisés supposés éliminer la majeure

partie des influences de ces variations entre locuteurs (voir par exemple Ménard et al., 2002).

Cependant, dans COSMO, tous les agents sont identiques. En effet, tous nos agents se servent

d’un même conduit vocal issu du modèle VLAM pour réaliser la transformation d’une représentation

motrice en signal sensoriel. Ce conduit vocal a les mêmes propriétés quel que soit l’agent et ne prend

notamment pas en compte les différences entre un bébé et un adulte. Ainsi, notre choix de

simpli-cité, impliquant des agents et un maître morphologiquement identiques, peut être vu comme un cadre

computationnel dans lequel les données perçues et produites sont préalablement normalisées, comme

le proposent les études sur la normalisation intrinsèque. La question de la normalisation reste

néan-moins un enjeu important pour la suite de ces travaux. La mise en œuvre de paradigmes d’interaction

entre agents COSMO morphologiquement différents pourrait produire des résultats intéressants dans

le développement d’outils de normalisation adaptés à la situation de communication.

8.1.2.3 Structure cognitive des unités distinctives

Comment sont structurées les unités distinctives dans le cerveau ? Nous discutons de cette question

autour de trois notions : leur caractère implicite ou explicite, leur composition phonétique et syllabique

et la multiplicité de leurs représentations.

L’existence d’unités distinctives discrètes explicites remise en question Utiliser le modèle

COSMO générique nous amène à considérer que les catégories phonétiques existent explicitement

et correspondent à des unités discrètes. Cette hypothèse est soutenue dans toutes les implémentations

du modèle COSMO de base que ce soit COSMO-1D ou COSMO-V. Dans ce modèle, une unité

pho-nétique est représentée par un objet o et celui-ci correspond par la suite à une unique distribution

gaussienne moteur dans le répertoire moteur et une unique distribution gaussienne sensoriel dans le

répertoire auditif. Ainsi, chaque agent COSMO possède dès le départ et avant tout apprentissage, une

représentation discrète complète de ses catégories phonétiques.

Par la suite, cette considération a été remise en question dans les choix de modélisation de sa

variante COSMO SylPhon. Dans ce dernier modèle, les catégories phonétiques, qu’elles soient

pho-némiques ou syllabiques, ne sont plus explicitement représentées dans le modèle. Pour rappel, les

catégories phonétiques correspondent à des noyaux gaussiens présents en nombre bien supérieur aux

catégories phonétiques qu’ils sont censés représenter. Cela signifie que les catégories phonétiques ne

sont plus des unités discrètes à part entière mais qu’elles correspondent à des unités dépendantes de

l’espace dans lequel elles sont représentées (dans notre cas soit sensoriel, soit moteur). Par ailleurs,

à la fin de l’apprentissage, même si nous considérons que seuls les noyaux gaussiens les plus

utili-sés, c’est-à-dire ayant un poids non négligeable, sont représentatifs des catégories phonétiques, leur

nombre n’est pas toujours équivalent au nombre de catégories puisqu’il existe des catégories

phoné-tiques représentées par plusieurs noyaux gaussiens.

Par la suite, nous pourrions imaginer un mécanisme cognitif de plus haut niveau permettant de

passer de cette représentation implicite sous forme de noyaux gaussiens à des catégories phonétiques

discrètes explicites. Comme nos noyaux gaussiens sont reliés soit à l’espace sensoriel, soit à

l’es-pace moteur, nous pourrions imaginer des catégories phonétiques discrètes sensorimotrices reliées aux

noyaux gaussiens sensoriels et moteurs des catégories correspondantes. Par exemple, en réalisant une

table de correspondance entre les noyaux sensoriels et les noyaux moteurs, nous pourrions former

l’en-semble des unités phonétiques sensorimotrices. Cette fusion des noyaux gaussiens sensoriels et

mo-teurs en catégories phonétiques sensorimotrices serait en accord avec les théories perceptuo-motrices

dont avons discuté préalablement. Néanmoins, le mécanisme permettant de passer des noyaux

gaus-siens aux catégories phonétiques sensorimotrices n’a rien d’évident et mériterait certainement de plus

amples réflexions notamment sur les méthodes de classification.

Actuellement, aucun de nos modèles ne permet réellement de trancher en faveur de l’une ou l’autre

des solutions. Néanmoins, sans pour autant affirmer que les catégories phonétiques se limitent à une

représentation implicite ou explicite, notre modélisation permet de soulever une question importante

sur l’implémentation des catégories phonétiques.

Syllabes vs. phonèmesLa nature des catégories phonétiques dans la version de base de COSMO

n’est pas une question centrale. En effet, COSMO, tel qu’il est présenté dans le chapitre 3, est composé

d’objetsOSetOLqui ne sont pas spécifiés et qui peuvent donc représenter n’importe quelle catégorie

phonétique. Dans COSMO-1D, utilisé dans la première étude du chapitre 4, l’implémentation reste

d’ailleurs assez floue sur la nature des objets puisqu’il s’agit simplement de contrastes phonétiques.

Les deux objetsOSetOLpeuvent donc aussi bien représenter des phonèmes que des syllabes. Dans

cette étude, nous avons laissé volontairement cette question floue car non seulement elle n’est pas le

sujet central de l’étude, mais elle permet de montrer que les résultats obtenus ne sont pas spécifiques

à la nature des catégories phonétiques choisies. Un apprentissage supervisé permettrait donc de faire

émerger n’importe quelle unité phonétique.

C’est à travers COSMO SylPhon que nous abordons davantage la question de la nature des unités

phonétiques. Ce modèle nous permet notamment d’étudier l’émergence des catégories phonémiques à

partir de l’unité syllabique. Cela nous permet de montrer que, d’une part, les syllabes et les phonèmes

peuvent tous deux émerger à partir d’un apprentissage non supervisé basé sur la perception d’unités

syllabiques et que, d’autre part, les phonèmes émergent de deux façon différentes : les voyelles sont

mieux apprises dans la branche sensorielle du modèle tandis que les consonnes sont mieux apprises

dans la branche motrice. Ce résultat suggère que les phonèmes pourraient être acquis sur la base de

composantes perceptuo-motrices.

Bien entendu, notre modélisation possède un certain nombre de limites concernant les catégories

étudiées. Nous en soulevons deux principales. La première est de ne considérer que des syllabesCV.

Nous pourrions envisager des syllabes plus complexes pouvant traiter tout type de syllabe comme,

par exemple, la syllabe [strakt]. La seconde est de ne modéliser que des consonnes plosives. Pour

ces deux limites, il s’agit davantage de choix computationnels que de choix théoriques. Une

pers-pective serait donc d’avoir une version de COSMO SylPhon capable de gérer des unités phonétiques

plus complexes. L’idéal serait d’avoir un modèle pouvant traiter l’ensemble des unités d’une langue

donnée.

Une double représentationUne particularité du modèle COSMO est d’avoir deux variables pour

les catégories phonétiques. Il y a d’une part des catégories phonétiques associées aux représentations

sensorielles, O

L, et d’autre part des catégories phonétiques associées aux représentations motrices,

OS. Cette particularité a ses avantages puisqu’elle nous permet de représenter et comparer dans un

même modèle les différentes théories de la perception. Néanmoins, la question de savoir s’il s’agit

d’un choix théorique ou purement computationnel peut se poser.

Premièrement, il s’agit d’un choix en partie computationnel puisque la programmation bayésienne

et la décomposition de la conjointe interdisent d’avoir deux fois la même variable en partie gauche.

Dans le modèle COSMO, il est donc impossible d’avoir, en même temps, un priorP(O)et un

classi-fieur sensorielP(O|S). C’est pour cela que la variableOest décomposée en deux objetsOS etOLet

est reliée ensuite par une variable de cohérenceC. Comme déjà expliqué précédemment, le rôle de la

variable de cohérence est similaire à celui d’un interrupteur. S’il est « non activé », les deux objets sont

indépendants et agissent de manière séparée. S’il est « activé », les deux objets sont reliés et

consi-dérés comme identiques. Cela peut être considéré aussi bien comme l’existence d’une fusion entre

les deux objets que comme l’utilisation d’un unique objetO. Ainsi, bien qu’il y ait deux objets dans

le modèle, ceci peut s’interpréter comme l’utilisation d’un unique objet sous certaines conditions. Le

modèle en lui-même ne permet donc pas de trancher.

Deuxièmement, d’un point de vue théorique, cette vision dichotomique semble compatible avec