3.2 Comment se développent les invariants des unités distinctives ?
4.1.1 Comment les unités distinctives sont-elles caractérisées dans les modèles ? 43
Les théories auditives, motrices et perceptuo-motrices de la perception ont été longuement
dé-battues afin de découvrir la nature des unités phonétiques. Si les récentes études en neuroimagerie
semblent montrer une activation commune des aires sensorielles et motrices durant la perception, le
rôle exact de ces deux ensembles d’aires est toujours en discussion. La modélisation pourrait être un
bon moyen d’analyser ce problème. C’est pourquoi, dans un premier temps, nous nous focalisons sur
les modèles de perception. Deux aspects de cette thématique sont développés : d’une part, la nature
des représentations utilisées dans les modèles de perception et, d’autre part, les résultats obtenus par
les modèles s’étant particulièrement centrés sur cet enjeu perceptuo-moteur.
Une fois la perception étudiée, nous examinons le lien entre les représentations en perception et en
production phonétiques. Celui-ci ayant été démontré dans diverses études, nous souhaitons analyser
comment les modèles computationnels le prennent en compte. Partant du constat que les modèles de
perception implémentent très rarement un mécanisme de production, nous nous intéressons, dans un
second temps, aux quelques modèles de production ayant un lien perception/production. Sans pour
autant les décrire dans leur globalité, nous étudions spécifiquement comment est implémenté ce lien
sensorimoteur.
Pour finir, nous nous intéressons à la structure cognitive des unités phonétiques. Le phonème est
généralement au cœur des études sur la nature des unités phonétiques. Néanmoins, les études relatives
au contenu cognitif de ces unités ont également montré l’importance de l’unité syllabique. Bien que
les avancées en neurosciences aient permis de proposer l’existence d’une double structure cognitive
phonémique et syllabique, les relations entre les deux types d’unités restent toutefois à
approfon-dir. Les modèles pourraient être un bon moyen d’étudier ces mécanismes. C’est pourquoi, dans un
troisième temps, nous analysons comment le lien entre ces deux types d’unités est implémenté dans
les modèles computationnels. Nous nous concentrons, d’une part, sur les unités phonétiques utilisées
globalement dans les modèles et, d’autre part, sur les modèles s’étant particulièrement intéressés à ce
lien.
4.1.1.1 La nature des unités phonétiques dans les modèles de perception
Comme le rappellent McClelland et Elman (1986), il y a généralement deux types de modèles
de la perception phonétique. Les premiers concernent la reconnaissance de parole et ont pour but de
construire une machine permettant de reconnaître le plus efficacement et le plus précisément possible
les différentes unités (voir par exemple Benzeghiba et al., 2007; Sarma et Prasanna, 2017, pour des
revues). Bien qu’en majorité focalisés sur les représentations auditives, certains d’entre eux montrent
que les représentations motrices peuvent améliorer les performances de reconnaissance (Badino et al.,
2014; Kirchhoff, 1998; Zolnay et al., 2005, voir aussi King et al., 2007 pour une revue). Mais ces
modèles ayant principalement des préoccupations de performance et d’efficacité et non de réalisme,
nous les laissons de côté pour nous focaliser sur le second type de modèles ayant un objectif davantage
cognitif et psychologique puisqu’ils cherchent à mieux comprendre comment fonctionne le processus
de perception.
Malgré les vifs débats ayant opposé différentes théories de la perception (voir section 3.1.1), une
grande partie des modèles cognitifs laissent de côté la question des représentations phonétiques pour
ne s’intéresser qu’au traitement des unités linguistiques en tant que tel (voir Scharenborg et Boves,
2010; Weber et Scharenborg, 2012, pour des revues). Ceci s’explique, en partie, par le fait qu’ils sont
avant tout des modèles de la perception générale prenant en compte les unités lexicales. De ce point de
vue, le signal acoustique entrant n’est traité réellement ni de manière auditive, ni de manière motrice
mais directement de manière linguistique. Dès le début de la perception, il est donc directement
dé-composé en un nombre fini d’unités discrètes abstraites prélinguistiques. Ces unités prélinguistiques
sont généralement définies au niveau phonémique ou au niveau des traits phonétiques. Dans le
pre-mier cas, certains modèles se servent par exemple des phonèmes eux-mêmes (McQueen et al., 2000;
Norris, 1994; Scharenborg et al., 2005), des allophones (Luce et al., 2000) ou encore des séquences
probabilistes de phonèmes (Norris et McQueen, 2008). Dans le second cas, les traits phonétiques,
bien qu’ils soient aussi des unités discrètes, prennent différentes formes : il peut s’agir d’unités
bi-naires (Gaskell et Marslen-Wilson, 1997) ou d’un peu plus grande cardinalité (McClelland et Elman,
1986; Scharenborg, 2008), représentant aussi bien des caractéristiques auditives (le voisement) que
motrices (le lieu d’articulation). En ce sens, les traits phonétiques se rapprochent des représentations
auditives et motrices caractérisant les unités distinctives.
Afin d’illustrer plus clairement ce que nous nommons un modèle linguistique, la Fig. 4.1 montre
le modèle MERGE (Norris et al., 2000). Dans ce modèle, les représentations linguistiques sont
répar-ties en trois couches de réseaux de nœuds, chaque nœud correspondant à une unité linguistique. La
première couche, l’input, est, par commodité, représentée par des unités phonémiques à reconnaître
par le modèle. Les deux autres couches sont les niveaux de décision qui correspondent aux unités
stockées dans le modèle. Il y a un niveau phonémique pour reconnaître les phonèmes et un niveau
lexical pour reconnaître les mots.
FIGURE4.1 – Schéma du modèle MERGE. Issu de McQueen et al. (2000), similaire à la figure
cor-respondante dans Norris et al. (2000)
Parmi les modèles s’intéressant à la nature des représentations des unités phonétiques, la
plu-part n’utilise que des représentations auditives (Clayards et al., 2008; Klatt, 1980; Kleinschmidt et
Jaeger, 2011, 2015). Celles-ci peuvent aussi bien être des paramètres acoustiques prédéfinis (Voice
Onset Time ou formants) que des représentations générales (séquences de spectres auditifs). Mais,
même parmi ces modèles, les recherches sur la nature exacte des unités et de l’invariant phonétique
ne sont pas toujours entièrement développées. En effet, certains auteurs étant focalisés sur une
problé-matique phonétique précise ne définissent pas les invariants phonétiques dans leur intégralité mais se
concentrent uniquement sur certains contrastes leur permettant de tester et d’illustrer leurs hypothèses.
C’est, par exemple, le cas de Kleinschmidt et Jaeger (2011) qui s’intéressent à l’adaptation phonétique
et qui ne définissent que les invariants leur permettant de manipuler les contrastes consonantiques [b]
et [d]. Pour ceux dont la problématique est plus générale, la question de l’invariant a plus
d’impor-tance. C’est par exemple le cas de Klatt (1980) qui se sert des caractéristiques auditives des diphones,
c’est-à-dire de la succession des noyaux de deux phonèmes consécutifs, pour pouvoir catégoriser les
phonèmes.
Si la majorité des modèles possèdent seulement des représentations auditives, il existe néanmoins
quelques exceptions prenant en compte les représentations motrices. Citons deux modèles. Le premier,
développé par l’équipe de Fadiga est, à notre connaissance, le seul modèle de perception s’intéressant
spécifiquement au rôle des représentations motrices en perception (Badino et al., 2016; Canevari et al.,
2013; Castellini et al., 2011). Le second, développé par l’équipe de Kröger, est, à notre connaissance,
le seul à proposer un modèle cognitif global sensorimoteur (Eckers et al., 2013; Kröger et al., 2011;
Kröger et Cao, 2015; Kröger et al., 2014, 2009). Néanmoins, il ne s’agit pas seulement d’un modèle
de perception mais d’un modèle couplant perception et production.
Concernant le modèle de l’équipe de Fadiga, il s’agit d’un modèle de reconnaissance phonétique,
assez proche des modèles de reconnaissance de parole aussi bien dans le déroulement des simulations
effectuées que dans l’analyse des résultats mais qui, néanmoins, se préoccupe de la représentation
interne du modèle. Nous l’intégrons donc également parmi les modèles cognitifs. Ce modèle a la
par-ticularité de contenir des représentations motrices qui sont utilisées dans le processus de perception.
L’étude se concentrant le plus sur l’apport des représentations motrices en perception est celle de
Castellini et al. (2011). Dans celle-ci, les auteurs vérifient, dans différentes conditions, si la prise en
compte des représentations motrices améliore la catégorisation des consonnes [b-p] versus [d-t]. Le
modèle est un réseau de neurones dans lequel les représentations auditives correspondent à des
coef-ficients cepstraux
1extraits du signal auditif et les représentations motrices correspondent soit à des
trajectoires motrices (nommées « real motor »), soit à des positions articulatoires reconstruites à
par-tir du signal auditif (nommées « reconstructed motor »). La discrimination des phonèmes s’effectue
selon quatre conditions : une pour chacune des trois représentations, auditive et motrices, prises
sépa-rément et une mélangeant les représentations auditives et les représentations motrices « reconstructed
motor ». La simulation se passe en deux phases : une phase d’entrainement dans laquelle le modèle
est entrainé à reconnaître différentes unités phonétiques sur des signaux donnés et une phase de test
dans laquelle sont testées les performances du modèle sur d’autres signaux. En réalisant différentes
conditions d’entrainement et de test en termes de locuteurs et d’unités, ils montrent que l’utilisation
des représentations motrices « real motor » donnent, dans chaque condition, les meilleures
perfor-mances pour reconnaître les consonnes [b-p] versus [d-t] (< 8% d’erreur). Ils observent également
que les représentations auditives donnent les moins bons taux de catégorisation (entre 6% et 37%
d’erreurs pour les cas les plus difficiles) et que les deux autres sont sensiblement, mais
significati-vement, meilleures (entre 5% et 35% d’erreurs pour les cas les plus difficiles). Ils en déduisent que
les représentations motrices, au moins pour la discrimination des consonnes, améliorent la
tion, quoique très faiblement. Toutefois, les auteurs n’expliquent pas les raisons de ces performances.
Il reste donc difficile à comprendre pourquoi le décodage moteur semble meilleur dans cette étude.
De son côté, l’équipe de Kröger propose, dans ses différentes études, un modèle
neurocompu-tationnel global de la perception et de la production en accord avec les processus de perception et
de production chez l’humain. Concernant les représentations des unités phonétiques, celles-ci sont
codées par des ensembles de neurones regroupés sous le terme de cartes. Dans une de ses versions
(Kröger et al., 2011), utilisée pour des simulations de perception, le modèle contient six cartes (voir
Fig. 4.2 pour un schéma global du modèle) : deux cartes phonétiques (« phonetic map » et « phonemic
map ») composées de phonèmes et syllabes, une carte auditive (« auditory map ») paramétrée par les
trois premiers formants du signal acoustique F1, F2 et F3, une carte somatosensorielle («
somato-sensory map ») informant sur l’ouverture du conduit vocal et deux cartes motrices (« motor plan » et
« primary motor map ») caractérisées par deux paramètres sur le lieu d’articulation et un paramètre sur
le mode d’articulation. Cependant, bien que le modèle contienne toutes ces cartes, les auteurs
consi-dèrent que la perception phonétique s’effectue uniquement à partir des représentations sensorielles
(cartes auditives et somatosensorielles) jusqu’aux représentations linguistiques (cartes phonétiques
et phonémiques) mais sans l’utilisation des cartes motrices. Ainsi, bien que le modèle contienne des
connaissances sensorielles et motrices et un lien sensorimoteur, la réalisation de la tâche de perception
implique, elle, uniquement des connaissances sensorielles.
FIGURE 4.2 – Schéma du modèle de perception et de production de Kröger et collègues, issu de
Kröger et al. (2011)
En résumé, il y a assez peu de modèles computationnels de perception s’intéressant à la nature des
représentations phonétiques et aux invariants phonétiques. Quand les modèles ne sont pas uniquement
linguistiques, la plupart utilisent des représentations auditives sans prendre en compte les potentielles
représentations motrices. Parmi ceux faisant figure d’exception, seul le modèle proposé par l’équipe
de Fadiga semble réellement se questionner sur l’apport des représentations motrices. Néanmoins, à
notre connaissance, aucun de ces modèles n’étudie finalement le rôle exact que jouent les invariants
sensoriels et moteurs dans la perception.
4.1.1.2 La nature sensorimotrice des invariants dans les modèles de production
Dans le chapitre précédent, nous avons énuméré plusieurs études traduisant le lien existant entre
les invariants phonétiques en perception et en production (voir section 3.1.2). Du côté des modèles
de perception phonétique, l’étude des invariants phonétiques reste assez limitée et la plupart des
mo-dèles se focalisent sur les représentations auditives. Dans ce contexte, il semble peu aisé d’étudier le
lien entre les représentations en perception et production. Du côté des modèles de production
phoné-tique, il en existe davantage proposant des représentations sensorimotrices. Nous avons, par exemple,
évoqué précédemment le modèle de l’équipe de Kröger qui, en plus d’être un modèle de
percep-tion, est également un modèle de production (Kröger et al., 2009). Cela vient principalement du fait
que la perception, notamment la perception auditive de ses propres productions, est jugée importante
pour la production. En effet, comme le rappellent Houde et Nagarajan (2011), même si, une fois les
gestes moteurs appris et maîtrisés, la production de la parole peut se passer de ces retours auditifs,
ils jouent néanmoins un rôle de feedback indispensable dans un certain nombre de cas, tant au
ni-veau phonétique que prosodique. C’est pourquoi, plusieurs modèles de production se sont penchés
sur leur implémentation et ont cherché à comprendre comment ils affectent la production. C’est sur
ces modèles que nous nous focalisons dans cette partie, afin d’étudier comment les représentations
sensorielles et motrices sont liées et comment ces liens influencent le processus de production.
Un des modèles de production les plus connus est le modèle DIVA de Guenther et ses
col-lègues (Guenther, 1995, 2006; Guenther et Vladusich, 2012). Plusieurs modèles, dont celui de Kröger,
que nous avons mentionné précédemment, sont basés sur lui. Ce modèle a connu plusieurs versions
et améliorations au cours des années. Nous nous concentrons sur la version proposée par Tourville
et Guenther (2011) qui décrit assez précisément l’interaction des représentations sensorimotrices en
perception et production, schématisée Fig. 4.3. Conformément au fait que le modèle de Kröger est
basé sur DIVA, nous y retrouvons la notion de cartes, celles-ci correspondant à des ensembles de
neurones. Nous remarquons, pour commencer, que les unités phonétiques sont regroupées dans une
carte nommée « Speech Sound Map ». Celle-ci est reliée à trois représentations, elles aussi organisées
sous forme de cartes : une carte pour les représentations motrices « Articulatory Velocity and Position
Maps », une carte pour les représentations auditives « Auditory Target Map » et une carte pour les
représentations somatosensorielles « Somatosensory Target Map ».
Lors de la production, deux systèmes sont actifs : le système de contrôle feedforward, qui génère
le geste de production, et le système de contrôle feedback, qui se charge du traitement du retour
sensoriel de cette production. À l’aide du système feedforward, une unité phonétique est sélectionnée
dans la carte « Speech Sound Map » et générée à l’aide des représentations motrices correspondantes
dans la carte « Articulatory Velocity and Position Maps ». En parallèle, à l’aide du système feedback,
l’unité phonétique choisie génère une prédiction auditive et somatosensorielle dans les cartes auditives
FIGURE4.3 – Schéma du modèle DIVA. Issu de Tourville et Guenther (2011)
« Auditory Target Map » et « Somatosensory Target Map », prédiction qui est ensuite rétro-activée
respectivement dans les cartes « Auditory Target Map » et « Somatosensory Target Map ». Les « error
maps » correspondent donc à l’opposé des « target maps », c’est-à-dire que les neurones excités dans
les target maps correspondent aux neurones inhibés dans les error maps et réciproquement.
Lors du retour auditif, le système reçoit et traite d’abord le retour sensoriel auditif et
somatosen-soriel respectivement dans une carte auditive nommée « Auditory State Map » et une carte
somato-sensorielle nommée « Somatosensory State Map ». Les neurones activés de ces deux « state maps »
sont projetés dans les error maps préalablement activées. Ainsi, ces dernières correspondent, après le
retour auditif, à la différence entre le stimulus attendu et le stimulus réel. Pour finir, le résultat des
erreurs entre le stimulus attendu et le stimulus réel est projeté dans une carte nommée « Feedback
Control Map », qui sert, par la suite, à corriger les gestes moteurs activés dans la carte des
représen-tations motrices « Articulatory Velocity and Position Maps ». Ainsi, le lien entre les représenreprésen-tations
motrices et les représentations sensorielles ne se fait que lors de la projection de la carte « Feedback
Control Map » sur la carte « Articulatory Velocity and Position Maps ». Dans ce modèle, les deux
représentations restent séparées l’une de l’autre et ont, chacune, un rôle différent dans le processus de
production : les représentations motrices sont utilisées pour produire le geste moteur et les
représen-tations sensorielles sont utilisées pour vérifier qu’il est correct et l’adapter, si besoin.
Supposant que le retour auditif seul n’est pas suffisant pour corriger la dynamique des gestes
mo-teurs, Houde et collègues ont proposé une solution alternative nommée State Feedback Control (Houde
et Nagarajan, 2011; Houde et al., 2007). La Fig. 4.4 reprend la version schématisée du modèle de 2007
qui est, à notre sens, la plus intuitive à comprendre. Ce modèle s’intéresse davantage au traitement
du retour auditif lui-même qu’au modèle de production et donne, en ce sens, peu de détails sur les
implémentations respectives des représentations. Il permet de calculer deux processus pour la
produc-tion : un processus feedforward, dans lequel, comme dans le modèle de Guenther, une cible de parole
est sélectionnée puis produite à l’aide des représentations motrices, et un processus de feedback, qui,
lui, diffère du modèle de Guenther. Celui-ci est défini de la manière suivante. En parallèle du
proces-sus feedforward, une copie des représentations motrices est conservée en interne. Elle est nommée
copie d’efférence. Du fait qu’il n’est pas réaliste d’avoir directement un retour des gestes moteurs
produits, ces représentations motrices correspondent à une estimation des gestes moteurs produits.
Cette copie d’efférence est projetée dans un modèle du conduit vocal (voir « internal model of
vo-cal apparatus » sur la figure). Cela permet d’avoir une approximation du geste moteur produit qui,
d’une part, est utilisée pour adapter si besoin les représentations motrices futures et, d’autre part, est
projetée dans un modèle interne fournissant les représentations sensorielles, et donc une estimation
du signal, correspondant à ce geste moteur (voir « internal model of feedback delays » sur la figure).
Lors du retour auditif, le signal obtenu est comparé avec le signal estimé et la différence obtenue est
ensuite convertie (voir « Kalman gain ») et utilisée afin de modifier les représentations motrices
esti-mées. Celles-ci sont enfin reproduites pour former un nouveau geste moteur, utilisé pour adapter les
prochaines productions.
FIGURE4.4 – Schéma du modèle State Feedback Control. Issu de Houde et al. (2007)
En résumé, ces deux modèles montrent que le retour auditif et le lien entre les représentations
sensorielles et motrices peuvent s’effectuer de différentes manières : soit à travers la comparaison entre
un stimulus directement estimé et le stimulus réel, comme dans le modèle de Tourville et Guenther
(2011), soit à travers la comparaison entre le retour auditif d’une production estimée via un modèle
interne et le retour auditif réel, comme dans le modèle de Houde et al. (2007). Le lecteur peut se
reporter à Zheng (2012) pour plus de détails sur ces deux modèles. Par ailleurs, bien que le but de
cette section est de présenter comment les modèles de production implémentent le lien sensorimoteur,
il est important de préciser que tous les modèles de production ne considèrent pas l’existence d’un lien
sensorimoteur (voir par exemple Gauvin et al., 2016, pour une revue). Dans certains d’entre eux, le
contrôle interne de la validité de la production s’effectue par des processus soit purement moteurs (par
exemple Nozari et al., 2011), soit purement sensoriels (par exemple Hartsuiker et Kolk, 2001).
4.1.1.3 La structure cognitive des unités dans les modèles
Comme nous l’avons vu dans le chapitre précédent, la structure cognitive des unités phonétiques
a été longuement débattue. Nous nous intéressons, ici, à la façon dont les modèles computationnels
Dans le document
Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie
(Page 56-75)