• Aucun résultat trouvé

Comment les unités distinctives sont-elles caractérisées dans les modèles ? 43

3.2 Comment se développent les invariants des unités distinctives ?

4.1.1 Comment les unités distinctives sont-elles caractérisées dans les modèles ? 43

Les théories auditives, motrices et perceptuo-motrices de la perception ont été longuement

dé-battues afin de découvrir la nature des unités phonétiques. Si les récentes études en neuroimagerie

semblent montrer une activation commune des aires sensorielles et motrices durant la perception, le

rôle exact de ces deux ensembles d’aires est toujours en discussion. La modélisation pourrait être un

bon moyen d’analyser ce problème. C’est pourquoi, dans un premier temps, nous nous focalisons sur

les modèles de perception. Deux aspects de cette thématique sont développés : d’une part, la nature

des représentations utilisées dans les modèles de perception et, d’autre part, les résultats obtenus par

les modèles s’étant particulièrement centrés sur cet enjeu perceptuo-moteur.

Une fois la perception étudiée, nous examinons le lien entre les représentations en perception et en

production phonétiques. Celui-ci ayant été démontré dans diverses études, nous souhaitons analyser

comment les modèles computationnels le prennent en compte. Partant du constat que les modèles de

perception implémentent très rarement un mécanisme de production, nous nous intéressons, dans un

second temps, aux quelques modèles de production ayant un lien perception/production. Sans pour

autant les décrire dans leur globalité, nous étudions spécifiquement comment est implémenté ce lien

sensorimoteur.

Pour finir, nous nous intéressons à la structure cognitive des unités phonétiques. Le phonème est

généralement au cœur des études sur la nature des unités phonétiques. Néanmoins, les études relatives

au contenu cognitif de ces unités ont également montré l’importance de l’unité syllabique. Bien que

les avancées en neurosciences aient permis de proposer l’existence d’une double structure cognitive

phonémique et syllabique, les relations entre les deux types d’unités restent toutefois à

approfon-dir. Les modèles pourraient être un bon moyen d’étudier ces mécanismes. C’est pourquoi, dans un

troisième temps, nous analysons comment le lien entre ces deux types d’unités est implémenté dans

les modèles computationnels. Nous nous concentrons, d’une part, sur les unités phonétiques utilisées

globalement dans les modèles et, d’autre part, sur les modèles s’étant particulièrement intéressés à ce

lien.

4.1.1.1 La nature des unités phonétiques dans les modèles de perception

Comme le rappellent McClelland et Elman (1986), il y a généralement deux types de modèles

de la perception phonétique. Les premiers concernent la reconnaissance de parole et ont pour but de

construire une machine permettant de reconnaître le plus efficacement et le plus précisément possible

les différentes unités (voir par exemple Benzeghiba et al., 2007; Sarma et Prasanna, 2017, pour des

revues). Bien qu’en majorité focalisés sur les représentations auditives, certains d’entre eux montrent

que les représentations motrices peuvent améliorer les performances de reconnaissance (Badino et al.,

2014; Kirchhoff, 1998; Zolnay et al., 2005, voir aussi King et al., 2007 pour une revue). Mais ces

modèles ayant principalement des préoccupations de performance et d’efficacité et non de réalisme,

nous les laissons de côté pour nous focaliser sur le second type de modèles ayant un objectif davantage

cognitif et psychologique puisqu’ils cherchent à mieux comprendre comment fonctionne le processus

de perception.

Malgré les vifs débats ayant opposé différentes théories de la perception (voir section 3.1.1), une

grande partie des modèles cognitifs laissent de côté la question des représentations phonétiques pour

ne s’intéresser qu’au traitement des unités linguistiques en tant que tel (voir Scharenborg et Boves,

2010; Weber et Scharenborg, 2012, pour des revues). Ceci s’explique, en partie, par le fait qu’ils sont

avant tout des modèles de la perception générale prenant en compte les unités lexicales. De ce point de

vue, le signal acoustique entrant n’est traité réellement ni de manière auditive, ni de manière motrice

mais directement de manière linguistique. Dès le début de la perception, il est donc directement

dé-composé en un nombre fini d’unités discrètes abstraites prélinguistiques. Ces unités prélinguistiques

sont généralement définies au niveau phonémique ou au niveau des traits phonétiques. Dans le

pre-mier cas, certains modèles se servent par exemple des phonèmes eux-mêmes (McQueen et al., 2000;

Norris, 1994; Scharenborg et al., 2005), des allophones (Luce et al., 2000) ou encore des séquences

probabilistes de phonèmes (Norris et McQueen, 2008). Dans le second cas, les traits phonétiques,

bien qu’ils soient aussi des unités discrètes, prennent différentes formes : il peut s’agir d’unités

bi-naires (Gaskell et Marslen-Wilson, 1997) ou d’un peu plus grande cardinalité (McClelland et Elman,

1986; Scharenborg, 2008), représentant aussi bien des caractéristiques auditives (le voisement) que

motrices (le lieu d’articulation). En ce sens, les traits phonétiques se rapprochent des représentations

auditives et motrices caractérisant les unités distinctives.

Afin d’illustrer plus clairement ce que nous nommons un modèle linguistique, la Fig. 4.1 montre

le modèle MERGE (Norris et al., 2000). Dans ce modèle, les représentations linguistiques sont

répar-ties en trois couches de réseaux de nœuds, chaque nœud correspondant à une unité linguistique. La

première couche, l’input, est, par commodité, représentée par des unités phonémiques à reconnaître

par le modèle. Les deux autres couches sont les niveaux de décision qui correspondent aux unités

stockées dans le modèle. Il y a un niveau phonémique pour reconnaître les phonèmes et un niveau

lexical pour reconnaître les mots.

FIGURE4.1 – Schéma du modèle MERGE. Issu de McQueen et al. (2000), similaire à la figure

cor-respondante dans Norris et al. (2000)

Parmi les modèles s’intéressant à la nature des représentations des unités phonétiques, la

plu-part n’utilise que des représentations auditives (Clayards et al., 2008; Klatt, 1980; Kleinschmidt et

Jaeger, 2011, 2015). Celles-ci peuvent aussi bien être des paramètres acoustiques prédéfinis (Voice

Onset Time ou formants) que des représentations générales (séquences de spectres auditifs). Mais,

même parmi ces modèles, les recherches sur la nature exacte des unités et de l’invariant phonétique

ne sont pas toujours entièrement développées. En effet, certains auteurs étant focalisés sur une

problé-matique phonétique précise ne définissent pas les invariants phonétiques dans leur intégralité mais se

concentrent uniquement sur certains contrastes leur permettant de tester et d’illustrer leurs hypothèses.

C’est, par exemple, le cas de Kleinschmidt et Jaeger (2011) qui s’intéressent à l’adaptation phonétique

et qui ne définissent que les invariants leur permettant de manipuler les contrastes consonantiques [b]

et [d]. Pour ceux dont la problématique est plus générale, la question de l’invariant a plus

d’impor-tance. C’est par exemple le cas de Klatt (1980) qui se sert des caractéristiques auditives des diphones,

c’est-à-dire de la succession des noyaux de deux phonèmes consécutifs, pour pouvoir catégoriser les

phonèmes.

Si la majorité des modèles possèdent seulement des représentations auditives, il existe néanmoins

quelques exceptions prenant en compte les représentations motrices. Citons deux modèles. Le premier,

développé par l’équipe de Fadiga est, à notre connaissance, le seul modèle de perception s’intéressant

spécifiquement au rôle des représentations motrices en perception (Badino et al., 2016; Canevari et al.,

2013; Castellini et al., 2011). Le second, développé par l’équipe de Kröger, est, à notre connaissance,

le seul à proposer un modèle cognitif global sensorimoteur (Eckers et al., 2013; Kröger et al., 2011;

Kröger et Cao, 2015; Kröger et al., 2014, 2009). Néanmoins, il ne s’agit pas seulement d’un modèle

de perception mais d’un modèle couplant perception et production.

Concernant le modèle de l’équipe de Fadiga, il s’agit d’un modèle de reconnaissance phonétique,

assez proche des modèles de reconnaissance de parole aussi bien dans le déroulement des simulations

effectuées que dans l’analyse des résultats mais qui, néanmoins, se préoccupe de la représentation

interne du modèle. Nous l’intégrons donc également parmi les modèles cognitifs. Ce modèle a la

par-ticularité de contenir des représentations motrices qui sont utilisées dans le processus de perception.

L’étude se concentrant le plus sur l’apport des représentations motrices en perception est celle de

Castellini et al. (2011). Dans celle-ci, les auteurs vérifient, dans différentes conditions, si la prise en

compte des représentations motrices améliore la catégorisation des consonnes [b-p] versus [d-t]. Le

modèle est un réseau de neurones dans lequel les représentations auditives correspondent à des

coef-ficients cepstraux

1

extraits du signal auditif et les représentations motrices correspondent soit à des

trajectoires motrices (nommées « real motor »), soit à des positions articulatoires reconstruites à

par-tir du signal auditif (nommées « reconstructed motor »). La discrimination des phonèmes s’effectue

selon quatre conditions : une pour chacune des trois représentations, auditive et motrices, prises

sépa-rément et une mélangeant les représentations auditives et les représentations motrices « reconstructed

motor ». La simulation se passe en deux phases : une phase d’entrainement dans laquelle le modèle

est entrainé à reconnaître différentes unités phonétiques sur des signaux donnés et une phase de test

dans laquelle sont testées les performances du modèle sur d’autres signaux. En réalisant différentes

conditions d’entrainement et de test en termes de locuteurs et d’unités, ils montrent que l’utilisation

des représentations motrices « real motor » donnent, dans chaque condition, les meilleures

perfor-mances pour reconnaître les consonnes [b-p] versus [d-t] (< 8% d’erreur). Ils observent également

que les représentations auditives donnent les moins bons taux de catégorisation (entre 6% et 37%

d’erreurs pour les cas les plus difficiles) et que les deux autres sont sensiblement, mais

significati-vement, meilleures (entre 5% et 35% d’erreurs pour les cas les plus difficiles). Ils en déduisent que

les représentations motrices, au moins pour la discrimination des consonnes, améliorent la

tion, quoique très faiblement. Toutefois, les auteurs n’expliquent pas les raisons de ces performances.

Il reste donc difficile à comprendre pourquoi le décodage moteur semble meilleur dans cette étude.

De son côté, l’équipe de Kröger propose, dans ses différentes études, un modèle

neurocompu-tationnel global de la perception et de la production en accord avec les processus de perception et

de production chez l’humain. Concernant les représentations des unités phonétiques, celles-ci sont

codées par des ensembles de neurones regroupés sous le terme de cartes. Dans une de ses versions

(Kröger et al., 2011), utilisée pour des simulations de perception, le modèle contient six cartes (voir

Fig. 4.2 pour un schéma global du modèle) : deux cartes phonétiques (« phonetic map » et « phonemic

map ») composées de phonèmes et syllabes, une carte auditive (« auditory map ») paramétrée par les

trois premiers formants du signal acoustique F1, F2 et F3, une carte somatosensorielle («

somato-sensory map ») informant sur l’ouverture du conduit vocal et deux cartes motrices (« motor plan » et

« primary motor map ») caractérisées par deux paramètres sur le lieu d’articulation et un paramètre sur

le mode d’articulation. Cependant, bien que le modèle contienne toutes ces cartes, les auteurs

consi-dèrent que la perception phonétique s’effectue uniquement à partir des représentations sensorielles

(cartes auditives et somatosensorielles) jusqu’aux représentations linguistiques (cartes phonétiques

et phonémiques) mais sans l’utilisation des cartes motrices. Ainsi, bien que le modèle contienne des

connaissances sensorielles et motrices et un lien sensorimoteur, la réalisation de la tâche de perception

implique, elle, uniquement des connaissances sensorielles.

FIGURE 4.2 – Schéma du modèle de perception et de production de Kröger et collègues, issu de

Kröger et al. (2011)

En résumé, il y a assez peu de modèles computationnels de perception s’intéressant à la nature des

représentations phonétiques et aux invariants phonétiques. Quand les modèles ne sont pas uniquement

linguistiques, la plupart utilisent des représentations auditives sans prendre en compte les potentielles

représentations motrices. Parmi ceux faisant figure d’exception, seul le modèle proposé par l’équipe

de Fadiga semble réellement se questionner sur l’apport des représentations motrices. Néanmoins, à

notre connaissance, aucun de ces modèles n’étudie finalement le rôle exact que jouent les invariants

sensoriels et moteurs dans la perception.

4.1.1.2 La nature sensorimotrice des invariants dans les modèles de production

Dans le chapitre précédent, nous avons énuméré plusieurs études traduisant le lien existant entre

les invariants phonétiques en perception et en production (voir section 3.1.2). Du côté des modèles

de perception phonétique, l’étude des invariants phonétiques reste assez limitée et la plupart des

mo-dèles se focalisent sur les représentations auditives. Dans ce contexte, il semble peu aisé d’étudier le

lien entre les représentations en perception et production. Du côté des modèles de production

phoné-tique, il en existe davantage proposant des représentations sensorimotrices. Nous avons, par exemple,

évoqué précédemment le modèle de l’équipe de Kröger qui, en plus d’être un modèle de

percep-tion, est également un modèle de production (Kröger et al., 2009). Cela vient principalement du fait

que la perception, notamment la perception auditive de ses propres productions, est jugée importante

pour la production. En effet, comme le rappellent Houde et Nagarajan (2011), même si, une fois les

gestes moteurs appris et maîtrisés, la production de la parole peut se passer de ces retours auditifs,

ils jouent néanmoins un rôle de feedback indispensable dans un certain nombre de cas, tant au

ni-veau phonétique que prosodique. C’est pourquoi, plusieurs modèles de production se sont penchés

sur leur implémentation et ont cherché à comprendre comment ils affectent la production. C’est sur

ces modèles que nous nous focalisons dans cette partie, afin d’étudier comment les représentations

sensorielles et motrices sont liées et comment ces liens influencent le processus de production.

Un des modèles de production les plus connus est le modèle DIVA de Guenther et ses

col-lègues (Guenther, 1995, 2006; Guenther et Vladusich, 2012). Plusieurs modèles, dont celui de Kröger,

que nous avons mentionné précédemment, sont basés sur lui. Ce modèle a connu plusieurs versions

et améliorations au cours des années. Nous nous concentrons sur la version proposée par Tourville

et Guenther (2011) qui décrit assez précisément l’interaction des représentations sensorimotrices en

perception et production, schématisée Fig. 4.3. Conformément au fait que le modèle de Kröger est

basé sur DIVA, nous y retrouvons la notion de cartes, celles-ci correspondant à des ensembles de

neurones. Nous remarquons, pour commencer, que les unités phonétiques sont regroupées dans une

carte nommée « Speech Sound Map ». Celle-ci est reliée à trois représentations, elles aussi organisées

sous forme de cartes : une carte pour les représentations motrices « Articulatory Velocity and Position

Maps », une carte pour les représentations auditives « Auditory Target Map » et une carte pour les

représentations somatosensorielles « Somatosensory Target Map ».

Lors de la production, deux systèmes sont actifs : le système de contrôle feedforward, qui génère

le geste de production, et le système de contrôle feedback, qui se charge du traitement du retour

sensoriel de cette production. À l’aide du système feedforward, une unité phonétique est sélectionnée

dans la carte « Speech Sound Map » et générée à l’aide des représentations motrices correspondantes

dans la carte « Articulatory Velocity and Position Maps ». En parallèle, à l’aide du système feedback,

l’unité phonétique choisie génère une prédiction auditive et somatosensorielle dans les cartes auditives

FIGURE4.3 – Schéma du modèle DIVA. Issu de Tourville et Guenther (2011)

« Auditory Target Map » et « Somatosensory Target Map », prédiction qui est ensuite rétro-activée

respectivement dans les cartes « Auditory Target Map » et « Somatosensory Target Map ». Les « error

maps » correspondent donc à l’opposé des « target maps », c’est-à-dire que les neurones excités dans

les target maps correspondent aux neurones inhibés dans les error maps et réciproquement.

Lors du retour auditif, le système reçoit et traite d’abord le retour sensoriel auditif et

somatosen-soriel respectivement dans une carte auditive nommée « Auditory State Map » et une carte

somato-sensorielle nommée « Somatosensory State Map ». Les neurones activés de ces deux « state maps »

sont projetés dans les error maps préalablement activées. Ainsi, ces dernières correspondent, après le

retour auditif, à la différence entre le stimulus attendu et le stimulus réel. Pour finir, le résultat des

erreurs entre le stimulus attendu et le stimulus réel est projeté dans une carte nommée « Feedback

Control Map », qui sert, par la suite, à corriger les gestes moteurs activés dans la carte des

représen-tations motrices « Articulatory Velocity and Position Maps ». Ainsi, le lien entre les représenreprésen-tations

motrices et les représentations sensorielles ne se fait que lors de la projection de la carte « Feedback

Control Map » sur la carte « Articulatory Velocity and Position Maps ». Dans ce modèle, les deux

représentations restent séparées l’une de l’autre et ont, chacune, un rôle différent dans le processus de

production : les représentations motrices sont utilisées pour produire le geste moteur et les

représen-tations sensorielles sont utilisées pour vérifier qu’il est correct et l’adapter, si besoin.

Supposant que le retour auditif seul n’est pas suffisant pour corriger la dynamique des gestes

mo-teurs, Houde et collègues ont proposé une solution alternative nommée State Feedback Control (Houde

et Nagarajan, 2011; Houde et al., 2007). La Fig. 4.4 reprend la version schématisée du modèle de 2007

qui est, à notre sens, la plus intuitive à comprendre. Ce modèle s’intéresse davantage au traitement

du retour auditif lui-même qu’au modèle de production et donne, en ce sens, peu de détails sur les

implémentations respectives des représentations. Il permet de calculer deux processus pour la

produc-tion : un processus feedforward, dans lequel, comme dans le modèle de Guenther, une cible de parole

est sélectionnée puis produite à l’aide des représentations motrices, et un processus de feedback, qui,

lui, diffère du modèle de Guenther. Celui-ci est défini de la manière suivante. En parallèle du

proces-sus feedforward, une copie des représentations motrices est conservée en interne. Elle est nommée

copie d’efférence. Du fait qu’il n’est pas réaliste d’avoir directement un retour des gestes moteurs

produits, ces représentations motrices correspondent à une estimation des gestes moteurs produits.

Cette copie d’efférence est projetée dans un modèle du conduit vocal (voir « internal model of

vo-cal apparatus » sur la figure). Cela permet d’avoir une approximation du geste moteur produit qui,

d’une part, est utilisée pour adapter si besoin les représentations motrices futures et, d’autre part, est

projetée dans un modèle interne fournissant les représentations sensorielles, et donc une estimation

du signal, correspondant à ce geste moteur (voir « internal model of feedback delays » sur la figure).

Lors du retour auditif, le signal obtenu est comparé avec le signal estimé et la différence obtenue est

ensuite convertie (voir « Kalman gain ») et utilisée afin de modifier les représentations motrices

esti-mées. Celles-ci sont enfin reproduites pour former un nouveau geste moteur, utilisé pour adapter les

prochaines productions.

FIGURE4.4 – Schéma du modèle State Feedback Control. Issu de Houde et al. (2007)

En résumé, ces deux modèles montrent que le retour auditif et le lien entre les représentations

sensorielles et motrices peuvent s’effectuer de différentes manières : soit à travers la comparaison entre

un stimulus directement estimé et le stimulus réel, comme dans le modèle de Tourville et Guenther

(2011), soit à travers la comparaison entre le retour auditif d’une production estimée via un modèle

interne et le retour auditif réel, comme dans le modèle de Houde et al. (2007). Le lecteur peut se

reporter à Zheng (2012) pour plus de détails sur ces deux modèles. Par ailleurs, bien que le but de

cette section est de présenter comment les modèles de production implémentent le lien sensorimoteur,

il est important de préciser que tous les modèles de production ne considèrent pas l’existence d’un lien

sensorimoteur (voir par exemple Gauvin et al., 2016, pour une revue). Dans certains d’entre eux, le

contrôle interne de la validité de la production s’effectue par des processus soit purement moteurs (par

exemple Nozari et al., 2011), soit purement sensoriels (par exemple Hartsuiker et Kolk, 2001).

4.1.1.3 La structure cognitive des unités dans les modèles

Comme nous l’avons vu dans le chapitre précédent, la structure cognitive des unités phonétiques

a été longuement débattue. Nous nous intéressons, ici, à la façon dont les modèles computationnels