Synthèse des enjeux phonétiques

7.5 Discussion générale

L, et d’autre part des catégories phonétiques associées aux représentations motrices,

7.5 Discussion générale

8.1.2 Synthèse des enjeux phonétiques

Comme le résume la section précédente, tout au long de ce manuscrit, nous nous focalisons sur

trois aspects de la phonétique, à savoir : la caractérisation, la variabilité et le contenu cognitif des

unités distinctives. Pour chacun de ces points, nous rappelons nos hypothèses de modélisation et nous

discutons des limites des simulations effectuées et de quelques perspectives futures.

8.1.2.1 Caractérisation des unités distinctives

Nous discutons ici de notre implémentation des représentations internes des unités de la parole.

La discussion s’effectue autour de deux points : les représentations utilisées dans notre modèle et leur

composition.

Les représentations considéréesDans toutes les versions de COSMO, nous n’avons considéré

que deux types de représentations des catégories phonétiques : des représentations sensorielles,

prin-cipalement auditives et des représentations motrices. Comme nous l’avons vu dans le chapitre 2, ce

sont les deux principales représentations permettant de caractériser les catégories phonétiques.

Les représentations sensorielles dans COSMO générique correspondent dans nos

implémenta-tions à des représentaimplémenta-tions auditives. Si elles sont assez peu détaillées dans COSMO 1D, elles

de-viennent plus précises dans COSMO-V et COSMO SylPhon dans lesquels elles correspondent à

l’espace formantique. L’espace formantique est souvent utilisé en phonétique pour caractériser les

propriétés acoustiques des catégories phonétiques. Cependant, les formants ne sont qu’une

compo-sante des représentations auditives. Ces dernières sont vraisemblablement plus riches et comprennent,

par exemple, des propriétés acoustiques variées : des bruits d’explosion et de friction, des pentes

spectrales, des bandes passantes, des équilibres entre régions spectrales, du voisement, des propriétés

prosodiques, etc.

Par ailleurs, dans le modèle COSMO générique, la variableSest sensorielle. Même si nous

l’inter-prétons comme auditive puisque les catégories phonétiques sont souvent définies comme telle, nous

pourrions envisager que cette variable S soit un espace multisensoriel incluant d’autres modalités

comme, par exemple, les représentations somatosensorielles (Patri et al., 2016), ou la vision. Une

ver-sion plus élaborée des représentations sensorielles est, à ce titre, présentée dans la prochaine section.

De leur côté, les représentations motrices sont également peu détaillées dans COSMO 1D, puis

sont implémentées comme un espace de configurations articulatoires dans COSMO-V et COSMO

SylPhon, notamment du fait de l’utilisation du modèle VLAM. La notion de « configuration » fait ici

référence à la forme générale du conduit vocal à un moment donné tandis que la notion «

d’articula-toire » fait référence aux articulateurs utilisés pour réaliser cette configuration. Nous en considérons

trois : les lèvres, la langue et la mâchoire. Ainsi ce que nous nommons « configuration articulatoire »

correspond plus exactement à la forme et à la position de certains articulateurs à un moment donné

(voir également la distinction entre moteur et articulatoire, dans le chapitre 3). Cette caractérisation

est, entre autres, incomplète puisqu’elle ne permet pas de modéliser toutes les catégories phonétiques.

Le problème apparaît notamment dans l’implémentation des consonnes du modèle COSMO SylPhon.

Bien que nous ayons pu contrer ces inconvénients et développer une version de COSMO SylPhon

suffisamment satisfaisante pour nos études, une version améliorée de cette espace moteur est

souhai-table.

Il se peut que ces articulateurs ne soient pas assez précis. Une des améliorations possibles serait

d’avoir un espace articulatoire de plus grande dimension, pour prendre en compte d’autres paramètres

articulatoires. Nous pourrions également remplacer les articulateurs par les muscles du conduit vocal

ou par l’ensemble des cavités de résonance formant le conduit vocal (voir par exemple Schroeter et

Sondhi, 1994, pour une revue de modèles existants). Néanmoins, connaître la position des composants

du conduit vocal n’est en réalité par suffisant pour produire du son. Il faut également un modèle

des cordes vocales. Ainsi, VLAM nécessite d’être couplé à un modèle implémentant le contrôle de

la source vocale pour pouvoir produire toutes les catégories phonétiques. Autrement dit, le modèle

trachée/cordes vocales implémente l’air à transformer en son, tandis que VLAM implémente la cavité

permettant de réaliser cette transformation. D’un point de vue computationnel, intégrer un modèle

de source vocale ajoute certainement de nouveaux paramètres et donc de nouvelles dimensions pour

caractériser les représentations motrices.

L’absence de structure des composantes sensorielles et motricesOutre les problèmes relatifs

au choix et au nombre de dimensions des espaces sensoriels et moteurs, il reste un problème majeur

non évoqué : la hiérarchie des représentations. Prenons le cas de l’espace sensoriel dans COSMO

générique. Dans nos implémentations, nous ne modélisons que l’espace sensoriel correspondant aux

catégories phonétiques choisies. Or, durant une tâche quelconque, par exemple, une tâche de

percep-tion, le cerveau ne reçoit pas directement le signal acoustique sous la forme d’une représentation

au-ditive prétraitée, reliée directement aux catégories phonétiques correspondantes. Le signal acoustique

reçu doit être traité au préalable avant de pouvoir être perçu comme une catégorie phonétique (voir par

exemple Poeppel et al., 2012). Le fait que nous utilisions un signal sensoriel synthétique préalablement

découpé facilite le problème. Cela évite, d’une part, tout le traitement sensoriel lié à la segmentation

du son et, d’autre part, facilite le prétraitement pour ne garder que les paramètres utiles à la

caté-gorisation. Mais, si nous envisageons d’utiliser une représentation sensorielle plus réaliste, cela

né-cessitera l’ajout d’une ou plusieurs variables sensorielles, convenablement structurées, indépendantes

des catégories phonétiques, et permettant de passer du signal sensoriel acoustique aux représentations

auditives adéquates pour la catégorisation phonétique.

Par ailleurs, nous pouvons considérer que cette décomposition est commencée dans COSMO

Syl-Phon puisque le modèle comprend des représentations auditives liées aux syllabes, des représentations

auditives liées aux phonèmes et des représentations auditives liées aux représentations motrices. Si, à

l’origine, ces trois sortes de variables sont un besoin computationnel, cette décomposition peut

éga-lement être envisagée d’un point de vue théorique. Dans le modèle, ces trois types de représentations

sont modélisés sous la même forme formantique (F1/F2 pour les représentations vocaliques et F2/F3

pour les représentations consonantiques) et connectés par une variable de cohérence pour assurer

leur égalité. Nous pourrions les envisager comme trois types de variables sensorielles indépendants,

représentant chacun une partie du signal sensoriel de base. Par la suite, une variable de plus haut

ni-veau pourrait assurer la liaison entre chacune de ces représentations ou les fusionner pour avoir une

vue d’ensemble du signal perçu. Néanmoins, ces pistes de réflexion nécessiteraient une évaluation