• Aucun résultat trouvé

Ecouter et comprendre ce qui nous est dit représente un enjeu que nous réalisons de manière automatique, alors que cette tâche peut se révéler d’une grande complexité. En effet, en situation de communication ordinaire, nous traitons environ 200 mots par minutes, ce qui implique que nous ne disposions que de 300 ms pour apparier chaque mot à sa représentation lexicale et lui associer un sens. De plus, dans la plupart des cas, la communication se fait dans des conditions difficiles (environnement bruité, locuteur étranger, variations de débit…), rendant le traitement du signal de parole encore plus complexe.

La compréhension de la parole passe par la reconnaissance des mots parlés ; elle nécessite d’apparier le signal acoustique aux représentations linguistiques stockées en mémoire. Le modèle classique de reconnaissance de la parole met en jeu plusieurs niveaux de traitement : le niveau acoustique, analysant les indices acoustiques contenus dans le signal auditif ; le niveau phonémique où les traits acoustiques sont additionnés pour former le phonème ; le niveau phonologique qui associe les phonèmes à leurs représentations phonologiques ; le niveau lexical où les phonèmes sont assemblés pour former le mot stocké dans le lexique ; puis les niveaux syntaxiques, morphologiques et sémantiques, permettant au final la reconnaissance du signal de parole.

Les modèles de reconnaissance des mots parlés sont répartis en deux classes : les modèles d’activation postulant que les mots sont reconnus grâce à un processus d’activation : l’activation des unités lexicales serait proportionnelle à leur appariement avec le signal d’entrée. Les unités les plus activées seraient alors reconnues plus rapidement. Les modèles d’accès direct, eux, émettent l’hypothèse que la reconnaissance du mot fait intervenir un processus de recherche parmi plusieurs alternatives.

1. L

E MODELE DES LOGOGENES DE

M

ORTON

(M

ORTON

, 1969)

Selon ce premier modèle, chaque mot connu de l’auditeur est représenté dans la mémoire à long terme par une unité appelée logogène. Chaque logogène combine les informations orthographiques, phonologiques, syntaxiques et sémantiques du mot. Les logogènes gèrent les entrées visuelles et auditives en rassemblant l’information pertinente. Au fur et à mesure que l’information arrive dans le système, le niveau d’activation des logogènes augmente, et l’identification du mot intervient lorsque ce niveau d’activation atteint un seuil suffisant. Le seuil d’activation est d’autant plus bas que le mot possède une fréquence d’occurrence importante dans la langue. L’activation revient ensuite graduellement à son niveau basal. Le

Chapitre 1C. Les modèles psycholinguistiques de la perception de la parole

Page 54

logogène conserve donc pendant un temps un certain niveau d’activité, ce qui lui permet d’atteindre son seuil d’activation avec moins d’informations ; ainsi un mot répété est-il reconnu plus rapidement.

2. L

E MODÈLE

C

OHORT

(M

ARSLEN

-W

ILSON

& W

ELSH

, 1978)

Le modèle de Marslen-Wilson tente d’expliquer le mécanisme permettant de passer de la perception à la compréhension des mots. Il émet l’idée que le processus de reconnaissance des mots passe par une sélection parmi plusieurs candidats possibles. Ce modèle met l’accent sur l’aspect temporel du signal de parole : celui-ci serait analysé de façon séquentielle, au fur et à mesure de son entrée dans le système auditif. Dès les premiers instants, les caractéristiques acoustico-phonétiques du signal de parole activent une cohorte de candidats lexicaux possibles. Puis au fur et à mesure du déroulement du signal de parole, intervient un mécanisme de sélection qui élimine les candidats ne correspondant plus au signal d’entrée. La reconnaissance du mot se fait lorsqu’il ne reste plus qu’un candidat possible. Selon cette hypothèse, le mot peut donc être reconnu avant que toute la séquence n’ait été déroulée, dès que tous les candidats ont été éliminés.

La limite de ce modèle réside dans le fait qu’il ne prend pas en compte les effets de contexte car il est basé exclusivement sur les caractéristiques acoustiques et phonétiques du signal d’entrée. Il accorde une grande importance aux débuts de mots, puisque la sélection de la cohorte initiale se fait sur les premiers segments du mot, et ne prend pas en compte les erreurs de prononciation ou le fait que le début des mots n’est pas robuste dans le bruit ou dans la parole continue. Par exemple, nous reconnaissons très bien le mot ‘Socolat’ comme une erreur de prononciation du mot ‘Chocolat’. Une autre limite de ce modèle réside dans le fait qu’il ne tient pas compte des effets de fréquence d’occurrence du mot dans la langue.

Pour répondre à ces critiques, une autre version du modèle a été proposée (Marslen-Wilson, 1987), où l’activation des candidats se fait plutôt en termes de niveaux d’activation, ce qui n’empêche plus la reconnaissance du mot en cas de défaut de prononciation. Cette modification intègre également le fait que les mots fréquents ont un niveau d’activité plus élevé que les mots rares et sont donc plus accessibles et plus rapidement reconnus que les mots rares.

3. L

E MODELE

TRACE (M

C

C

LELLAND

& E

LMAN

, 1986)

Le modèle TRACE est un modèle connexionniste, composé d’un très grand nombre d’unités (les nœuds) reliées les unes aux autres. Ces liens entre unités seraient similaires aux connexions nerveuses dans le cerveau, avec des connexions excitatrices et des connexions

Chapitre 1C. Les modèles psycholinguistiques de la perception de la parole

inhibitrices. L’ensemble formerait un vaste réseau, organisé en trois niveaux distincts, le niveau des traits, le niveau des phonèmes et le niveau des mots. Les connexions entre niveaux seraient excitatrices, tandis que les connexions intra-niveau seraient inhibitrices.

Ainsi l’activation des traits phonétiques active les phonèmes qui activent les mots. A l’intérieur d’un même niveau, un phénomène de compétition entre en jeu, l’unité la plus activée inhibant les autres. Ainsi les unités les moins actives vont progressivement disparaître, jusqu’à ce qu’il n’en reste plus qu’une. Le mot le plus actif est donc celui qui correspond le mieux au signal d’entrée. L’activation peut se faire du bas vers le haut (bottom-up), mais également du haut vers le bas (top-down) : l’activation d’un mot peut par exemple activer les phonèmes.

Ce modèle est donc à la fois dirigé par les inputs et par les processus top-down contrôlés par les connaissances stockées en mémoire. La reconnaissance des mots est considérée comme un processus dynamique, qui s’étale dans le temps. Il considère que le système ignore où se trouve le début des mots ; à chaque nouvelle entrée de phonèmes un mécanisme de réalignement est mis en place afin que la totalité du lexique soit disponible à chaque début de mots possible. Ainsi l’entrée ‘chat’ va activer tous les mots commençant par le phonème /ʃ/ mais également tous ceux commençant par le phonème /a/. L’avantage est qu’il permet de segmenter le signal de parole sans détecter les frontières des mots, peu saillantes dans le signal de parole. Il impose cependant d’avoir à gérer une grande quantité d’information à chaque instant, ce qui contraint énormément la taille du lexique et le rend peu probable pour un adulte dont le lexique est d’une grande complexité.

4. L

E MODELE

S

HORTLIST

(N

ORRIS

, 1994)

Le modèle Shortlist est un descendant du modèle TRACE ; il s’agit également d’un modèle connexionniste. Dans une première étape, une liste initiale de mots candidats (shortlist) est activée, consistant en des items lexicaux correspondant à l’entrée auditive. Dans une seconde étape, cette liste d’items lexicaux entre dans un réseau d’unités mots. Ces unités lexicales entrent en compétition pour la reconnaissance, via des connexions inhibitrices. Les mots présentant les mêmes phonèmes vont s’inhiber entre eux, proportionnellement au nombre de phonèmes qu’ils partagent. Ces compétitions entrent donc en jeu uniquement pour des listes restreintes de candidats, ce qui fait qu’il n’est pas limité par la taille du lexique. Ce modèle tente d’expliquer la segmentation des mots à partir du flux de parole grâce à la notion de compétition lexicale. A la différence de TRACE, c’est un modèle autonome, qui ne permet pas d’influence top-down des unités lexicales sur les phonèmes ; le flux d’information entre les phonèmes et les unités lexicales est uniquement bottom-up.

Chapitre 1D. La parole dégradée : compréhension de la parole dans le bruit