Perception et production : des invariants communs ?

2.2 Plan de thèse

3.1.2 Perception et production : des invariants communs ?

La nature des invariants en perception est toujours sujette à débat notamment parce qu’il est

diffi-cile de définir le rôle réel des représentations motrices en perception. En revanche, la nature

perceptuo-motrice des représentations en production semble, elle, beaucoup moins controversée. C’est pourquoi

une manière d’étudier le problème en perception consiste à analyser le lien entre la perception et la

production. Si ces deux processus ont des invariants communs, connaître la nature de l’un pourrait

faciliter la compréhension de l’autre.

Il y a de nombreuses preuves de l’existence d’un lien global entre la perception et la production.

Par exemple, l’effet Lombard, décrit par l’otolaryngologiste français Lombard au début du XXème

siècle, stipule qu’un locuteur adapte le volume de sa voix au niveau de bruit ambiant. De la même

manière, le locuteur adapte également sa production tout entière au niveau de bruit de

l’environne-ment (Lane et Tranel, 1971). Cela illustre le fait que la perception du locuteur influence d’une certaine

manière ce qu’il produit. Au même titre, nous venons de voir, dans la section précédente, que les aires

motrices utilisées durant la production sont non seulement actives durant la perception mais qu’elles

peuvent l’influencer.

Pour autant, peut-on dire que les invariants utilisés en perception sont liés à ceux utilisés en

pro-duction ? C’est ce que nous allons tenter d’analyser à travers trois types d’études. Les premières

concernent l’adaptation perceptuo-motrice où nous observons, d’une part, les effets de la

percep-tion sur la producpercep-tion puis, d’autre part, les effets de la producpercep-tion sur la perceppercep-tion. Les secondes

s’intéressent à la compatibilité perceptuo-motrice. Enfin, les troisièmes se rapportent aux

idiosyncra-sies. Toutes ces études suggèrent l’existence d’un lien entre les invariants en perception et ceux en

production.

3.1.2.1 L’adaptation perceptuo-motrice : l’influence de la perception sur la production

Commençons par les expérimentations d’adaptation perceptuo-motrice dans lesquelles une tâche

de perception provoque une adaptation de la production. Nous décrivons trois séries d’études : celles

sur la fatigue auditive, celles sur les changements involontaires et celles sur la perturbation auditive.

La première série d’études concerne les expérimentations de fatigue auditive, qui consistent à

fatiguer le système perceptif afin d’observer les effets sur la production (Cooper, 1979; Cooper et al.,

1976; Cooper et Lauritsen, 1974; Jamieson et Cheesman, 1987). Dans ces études, les participants ont

pour tâche de prononcer une syllabe Consonne+Voyelle (CV) après avoir écouté en boucle une unité

distinctive spécifique (une syllabe ou une voyelle). Les auteurs analysent les valeurs de VOT

(Voice-Onset Time), caractérisant la production des consonnes plosives

. Pour la plupart des syllabes, ils

montrent une adaptation des valeurs de VOT dans les consonnes produites, influencées par ce que

les participants ont perçu. Par exemple, ils observent un déclin du VOT pour la consonne [p] de la

syllabe [pi] après avoir écouté de façon répétitive la même syllabe [pi] alors qu’un tel déclin n’est

pas observé avec l’écoute répétitive de la voyelle [i] (Cooper et Lauritsen, 1974). Ils interprètent ce

phénomène comme la conséquence de la fatigue du mécanisme de VOT, partagé entre la perception

et la production. Ce résultat peut également s’expliquer par ce qui est nommé l’effet d’adaptation

sélective : l’écart observé de la frontière catégorielle vers un stimulus donné suite à une exposition

prolongée à ce même stimulus (Eimas et Corbit, 1973).

Dans la seconde série d’études sur les changements involontaires, les expérimentations ont pour

objectif d’analyser l’évolution de la production en fonction de ce qui est perçu (Sato et al., 2013,

voir aussi Garnier et al., 2013). Ces expérimentations se basent sur un phénomène bien étudié de la

littérature : la convergence phonétique, qui est la tendance à modifier sa production afin d’imiter

invo-lontairement ce que produit un interlocuteur (voir, par exemple, Aubanel, 2011; Babel, 2009; Lelong,

2012; Pardo, 2013, pour des revues). À cet effet, l’expérimentation de Sato et al. (2013) est composée

de trois phases : une production de phonèmes présentés visuellement (baseline), une production de

3. Plus précisément, le VOT, aussi nommé Délai d’Établissement du Voisement, correspond au délai séparant le relâche-ment de la constriction de la plosive, caractérisée par une explosion acoustique (burst), et le début du voiserelâche-ment, marquant la mise en action des cordes vocales.

phonèmes présentés acoustiquement (test) et à nouveau une production de phonèmes présentés

vi-suellement (after-effect). Les auteurs comparent d’abord les productions entre la phase de test et la

baseline pour savoir si le fait d’entendre les phonèmes influence la perception. Ils montrent que les

participants ont tendance à imiter le phonème perçu sans même qu’il soit explicitement demandé de le

répéter. Ce phénomène subsiste lors de la phase d’after-effect, confirmant que l’adaptation est robuste.

Selon les auteurs, ces résultats suggèrent que la production de la parole se module constamment à

l’aide de la perception. Cette expérimentation montre également que la convergence phonétique n’est

pas seulement un phénomène social mais provient également d’une adaptation sensorimotrice de plus

bas niveau.

La troisième série d’études, relative à la perturbation auditive, analyse l’effet d’une perturbation

auditive lors de la perception sur la production. Dans ce domaine, les pionniers sont Houde et Jordan

(1998). Durant leur expérimentation, les participants doivent produire une syllabe Consonne + Voyelle

+ Consonne (CVC) affichée sur un écran. Équipés d’un casque, ils reçoivent un feedback auditif altéré

en temps réel de leur propre production. L’altération consiste à modifier les valeurs des formants de la

voyelle produite (voir Fig. 3.2 pour avoir une vue d’ensemble). Les résultats montrent que les

partici-pants ajustent leur production en fonction de ce qu’ils perçoivent. Par exemple, lorsque la voyelle [e]

est modifiée avec des formants plus faibles en F1 et plus élevés en F2 de façon à ressembler davantage

à un [i] (voir flèche bleue Fig. 3.2b), les participants compensent cette perturbation en prononçant le

[e] avec des formants plus élevés en F1 et plus faibles en F2 par rapport à sa prononciation de base,

c’est-à-dire une prononciation plus proche du [a] (voir flèche rouge Fig. 3.2b). Ces résultats suggèrent

une adaptation sensorimotrice. Des études similaires concordantes ont été par la suite réalisées,

confir-mant la robustesse de cette expérimentation (Bourguignon et al., 2014; Max et al., 2003; Purcell et

Munhall, 2006; Villacorta et al., 2007).

(a) Protocole expérimental (b) Résultat obtenu pour un participant

FIGURE3.2 – Illustration de l’expérimentation de Houde et Jordan (1998). Figures adaptées de Houde

et Jordan (2002)

En résumé, à travers différents protocoles d’expérimentations, ces trois séries d’études montrent

une influence des processus de perception sur la production et semblent confirmer que les invariants

phonétiques utilisés en perception et en production sont liés. Pour savoir si le lien entre perception et

production est intégral, il devrait être possible d’observer des effets bilatéraux, c’est-à-dire des tâches

dans lesquelles la perception est altérée par la production.

3.1.2.2 L’adaptation perceptuo-motrice : l’influence de la production sur la perception

Les études principales d’adaptation perceptuo-motrice ayant étudié et observé l’influence de la

production sur la perception sont des études de perturbation auditive. Une des premières études à

ob-server un tel résultat est celle de Shiller et al. (2009). Le protocole expérimental est très similaire à

celui de Houde et Jordan (1998), décrit précédemment. Les auteurs ajoutent, en plus, une tâche de

perception avant et après la tâche de perturbation pour évaluer l’effet de la perturbation en production

sur les performances de perception. Ils testent notamment trois groupes de participants : un groupe

avec production et feedback altéré dans des conditions similaires à celles de Houde et Jordan (1998)

(altered feedback, AF), un groupe avec production avec un feedback non altéré (unaltered feedback,

UF) et un groupe écoutant simplement le feedback altéré sans production (passive feedback, PL). Les

participants sont testés avec des séquences Consonne+Voyelle (CV) ou Consonne+Voyelle+Consonne

(CVC) pour lesquelles la première consonne est un [s]. L’altération du feedback diminue la fréquence

du centroïde spectral de la consonne [s] de manière à ce que le signal ressemble davantage à une

consonne [S]. En production, avec le groupe AF, ils observent une compensation contraire à la

pertur-bation avec une augmentation de la fréquence du centroïde, similaire au résultat observé dans Houde

et Jordan (1998). En perception, ils observent un déplacement de la frontière catégorielle entre le [s] et

le [S]. En fin d’expérimentation, les participants perçoivent davantage le signal comme une consonne

[S] plutôt qu’une consonne [s] par rapport à leur catégorisation avant l’expérimentation. Ces

résul-tats sont concordants avec ceux obtenus en production. Cela montre que la perception est également

altérée par le feedback auditif au même titre que la production.

Par ailleurs, le groupe PL ne montre aucune altération de sa perception (et bien entendu aucune

altération de la production non plus) en fin d’expérimentation. Ceci semble suggérer que la

modifica-tion pour le groupe AF serait sensorimotrice et qu’une adaptamodifica-tion de la producmodifica-tion serait nécessaire

pour modifier en conséquence la perception.

Par la suite, Lametti et al. (2014) ont étudié la cause de ce changement perceptif avec un protocole

similaire. À la place des consonnes [s] et [S], ils utilisent les voyelles [a,E,i], respectivement à travers

les mots [had, head, hid]. En partant du mot [head], ils étudient deux types d’altération : 1) une

altéra-tion qui augmente le premier formant de la voyelle [E] de façon à ressembler davantage à une voyelle

[a] et 2) une altération qui diminue le premier formant de la voyelle [E] de façon à ressembler

davan-tage à une voyelle [i]. Pour ces deux types d’altération, ils étudient l’effet sur la catégorisation aussi

bien entre [E] et [a] qu’entre [E] et [i]. Ils remarquent qu’il y a une différence de catégorisation entre

[E] et [a], uniquement pour les participants de la seconde altération (avec des formants qui diminuent

pour ressembler à un [i]) : la voyelle [E] ressemble davantage à un [a]. Inversement, les participants

discriminent différemment [E] et [a] uniquement lors de la première altération (avec des formants qui

augmentent pour ressembler à un [a]). Ces résultats semblent donc montrer que la compensation en

perception est due aux modifications en production plutôt qu’à l’altération perceptive elle-même.

Cependant, les résultats de Lametti et collègues n’ont pas été retrouvés dans d’autres

expérimen-tations similaires, comme dans Schuerman et al. (2017). Néanmoins, en réalisant des enregistrements

EEG durant la tâche de catégorisation, les auteurs observent une corrélation entre l’altération du

feed-back auditif et un changement des potentiels évoqués, supportant malgré tout l’hypothèse d’une

mo-dification du percept sensoriel causée par l’altération du feedback auditif.

En résumé, ces quelques études basées sur une altération du feedback auditif ne montrent pas

seulement un changement en production mais également un changement en perception. Ce résultat

suggère que l’adaptation est bien sensorimotrice et qu’il existe véritablement un lien entre les

inva-riants phonétiques en production et en perception.

3.1.2.3 Les effets de compatibilité perceptuo-motrices

Nous analysons maintenant un autre type d’études, celles sur la compatibilité perceptuo-motrice,

qui mettent en évidence la relation entre la perception et la production en montrant que l’utilisation

de l’une accélère l’autre.

Pour mettre en évidence ce phénomène, les études utilisent le « close shadowing » (répétition

rapide). Cela consiste à identifier et répéter le plus rapidement possible un stimulus auditif. Une des

premières études à avoir testé cette tâche est celle décrite par Porter Jr et Castellanos (1980). Durant

une première expérimentation dite « à choix multiple », les participants doivent répéter le plus

rapide-ment possible des séquences Voyelle + Consonne + Voyelle (VCV) ([aba], [apa], [ama], [aka], [aga])

dès qu’ils les entendent. Ils doivent, typiquement, prononcer la première voyelle dès son apparition et

ensuite produire la consonne dès qu’ils l’entendent. Dans une seconde expérimentation dite « à choix

unique », les participants réalisent une variante du close shadowing dans laquelle ils doivent prononcer

aussi vite que possible la première voyelle et prononcer ensuite l’occurence [ba] dès qu’ils entendent

la consonne. Les auteurs trouvent des temps de réaction plus rapide dans la seconde expérimentation

« à choix unique » (≈170 ms) par rapport à la première (≈240 ms). Ils interprètent cette différence

comme le temps nécessaire de prise de décision. Néanmoins, du fait de la rapidité d’imitation, ils

supposent que le processus de production pourrait commencer avant même que la prise de décision

en perception ne soit complètement terminée, suggérant ainsi l’existence de représentations partagées

entre les processus de perception et de production.

Cette idée semble être corroborée par une étude reportée dans Luce (1986). Dans cette

expérimen-tation, la tâche est similaire et également composée d’une expérimentation « à choix multiple » et « à

choix unique ». En revanche, les auteurs utilisent non pas une répétition de la syllabe perçue mais une

touche sur laquelle appuyer. Avec ce protocole, non seulement les temps de réaction sont plus longs

que dans l’étude précédente (supérieurs à 300 ms, alors qu’ils ne dépassent pas 240 ms avec le

pré-cédent protocole) mais les écarts entre les deux expérimentations le sont également (environ 100 ms,

alors qu’ils sont d’environ 70 ms avec le précédent protocole). Cette différence d’écart peut

s’expli-quer par un lien entre la perception et la production n’existant pas entre la perception et l’appui sur

une touche. Galantucci et al. (2006) proposent que cette différence est un argument supplémentaire en

faveur de l’existence d’un invariant moteur en perception et en production.

Par la suite, une étude similaire est réalisée par Fowler et al. (2003). Les auteurs trouvent les

mêmes résultats que Porter Jr et Castellanos (1980) et observent, en plus, des temps de réaction plus

rapides dans la tâche « à choix unique » quand les participants perçoivent la même syllabe que celle

qu’ils doivent produire. Cela semble confirmer le fait que les participants se servent des invariants

moteurs perçus pour réaliser leur production.

En résumé, l’ensemble de ces études montrent que les temps de réaction diffèrent selon la

congruence des tâches à réaliser en perception et en production. Cela semble suggérer l’utilisation

d’invariants communs en perception et en production.

3.1.2.4 Études des idiosyncrasies

Les études sur l’adaptation et la compatibilité perceptuo-motrices montrent que les invariants en

perception et en production semblent liés. Si cette hypothèse est correcte, il devrait être possible de

réaliser des études dans lesquelles nous observons, pour chaque individu, des similitudes entre les

invariants en perception et en production. Cela semble être le cas puisqu’une des expérimentations

d’adaptation perceptuo-motrice souligne, entre autres, qu’une meilleure acuité auditive résulte en une

plus forte compensation en production lors de l’altération du feedback (Villacorta et al., 2007).

Par ailleurs, il est supposé dans Perkell et al. (2004a) que plus un contraste entre deux unités

pho-nétiques est précisément discriminé plus ce contraste est clairement et distinctement articulé. Pour

tester cela, ils ont proposé une expérimentation composée d’une tâche de production et d’une tâche de

perception. Durant la première, les participants répètent des phrases contenant entre autres les mots

[cod, cud, who’d, hood] à différentes vitesse d’articulation. Durant la seconde, les participants

en-tendent une suite de stimuli synthétiques sur un continuum dans lequel les voyelles évoluent soit entre

[A] and [2], soit entre [u] and [U]. Ils doivent respectivement discriminer soit les mots [cod] et [cud],

soit les mots [who’d] et [hood]. Les auteurs observent que les participants avec une discrimination

supérieure à la moyenne produisent de meilleurs contrastes acoustiques. De mêmes résultats sont

ob-tenus avec une expérimentation testant les contrastes [s] et [S] (Perkell et al., 2004b). Par la suite, des

études complémentaires (Franken et al., 2015; Perkell et al., 2008) montrent que plus l’acuité auditive

est forte plus les régions vocaliques sont restreintes et focalisées.

Les spécificités de perception et de production des unités phonétiques propres à chaque individu

sont nommées les idiosyncrasies. Dans une étude de Bell-Berti et al. (1979), les participants doivent

discriminer les voyelles [i] et [I] dans un continuum vocalique. En étudiant leur manière de produire

ces deux voyelles, les auteurs remarquent que des stratégies différentes de production mènent à des

différences de perception. Similairement, dans une de ces études, Fox (1982) tente de corréler les

différences individuelles des voyelles [i,I,E, æ, a,2, o,U, u] en perception avec les différences

indi-viduelles des voyelles en production. À l’aide de mesures de distance, il trouve plusieurs corrélations

significatives entre les variations individuelles en perception et production. Newman (2003)

entre-prend le même genre d’études mais, cette fois-ci, avec des caractéristiques consonantiques : pour les

plosives [b, p], le VOT et la fréquence centroide ; pour les fricatives [s,S], la pente spectrale et les

pics spectraux. L’auteur observe des corrélations individuelles significatives entre la perception et la

production pour le VOT des plosives et pour les pics de fréquences des fricatives. Plus récemment,

Ménard et Schwartz (2014) étudient la composition des répertoires des unités vocaliques du

fran-çais en perception et en production. Après avoir effectué une tâche de production (voir Ménard et al.

(2008) pour le détail) et une tâche de perception sur dix voyelles du français [a i u y e E œ ø o O],

ils analysent les valeurs de F1 normalisées de chaque sujet. Ils obtiennent deux résultats principaux.

Premièrement, pour chaque participant étudié séparément, les voyelles perçues et produites de même

aperture ont une valeur formantique de F1 identique, indépendante de l’arrondissement et du lieu

d’ar-ticulation des voyelles. Deuxièmement, la distance en F1 entre deux voyelles perçues d’un participant

est corrélée avec la distance en F1 de ces deux mêmes voyelles produites.

En résumé, à travers leurs résultats sur les idiosyncrasies en comparant les manières d’articuler

avec les capacités de discrimination ou en mesurant de manière plus précise les spécificités des unités

phonétiques en perception et en production pour chaque individu, les auteurs soutiennent l’existence

d’un lien entre les invariants phonétiques en perception et production.

3.1.2.5 Conclusion

Pour synthétiser, les études sur l’adaptation perceptuo-motrice nous permettent de mettre en avant

le fait que la perception et la production des unités phonétiques s’influencent mutuellement. Ensuite,

à travers les études sur la compatibilité, nous avons vu que le processus de perception facilite

l’uti-lisation du processus de production. Finalement, les études sur les spécificités phonétiques propres

à chaque individu, c’est-à-dire les idiosyncrasies, sont également liées en perception et production.

Ainsi, ces trois types d’études sont cohérents avec l’hypothèse d’un lien entre les invariants en

per-ception et les invariants en production.

S’il devient de plus en plus convainquant que les invariants en perception et production sont liés,

il reste à définir plus exactement la nature de cette connexion. Récemment, diverses théories ont

été proposées afin d’éclaircir comment la production et la perception sont connectées (Pickering et

Garrod, 2013; Remez, 2015). Nous proposons également un début de réponse à cette question dans

une de nos modélisations au chapitre 5.

Dans le document Modélisation bayésienne du développement conjoint de la perception, l'action et la phonologie (Page 27-33)