• Aucun résultat trouvé

L ES MODÈLES DE LA RECONNAISSANCE DES MOTS PARLÉS

IV. MODÈLES DE LA RECONNAISSANCE DES MOTS COMPLEXES RENDANT COMPTE DES EFFETS DE LA TRANSPARENCE SÉMANTIQUE ET DU DEGRÉ D'AFFIXATION

2. M ODÈLES POUR LE DOMAINE AUDITIF

2.2. L ES MODÈLES DE LA RECONNAISSANCE DES MOTS PARLÉS

La reconnaissance des mots parlés: un point de vue général

Des caractéristiques de la parole découlent certaines hypothèses relatives aux difficultés qu'un locuteur rencontre lorsqu'il perçoit des mots parlés. En effet, la variabilité de la parole, son

caractère continu et ambigu ainsi que sa séquentialité peuvent générer des problèmes

spécifiques durant la reconnaissance des mots parlés. La variabilité de la parole rend difficile la catégorisation d'unités variables - les phones- en unités stables du signal sonore - les phonèmes. Son aspect continu crée des difficultés à segmenter le signal sonore en unités distinctes. Son caractère ambigu gêne l'appariement entre la forme sonore et l'entrée lexicale correspondante. Finalement, le fait que la parole soit séquentielle et continue entrave l'alignement de la séquence sonore à l'entrée lexicale cible (dans le but de déterminer le début de chaque mot).

Bien que les psycholinguistes s'accordent sur le fait que les modèles de reconnaissance des

mots parlés doivent expliquer comment un locuteur segmente, catégorise, aligne et apparie le

signal perçu à ce qu'il connaît, de nombreuses propositions théoriques ont vu le jour (pour une revue récente, voir Frauenfelder, 1996). Globalement, selon un point de vue computationnel, ces processus pourraient se réaliser en trois étapes, la première engageant des représentations sub-lexicales et les deux dernières impliquant des représentations lexicales. Durant la première phase du traitement, la séquence sonore serait segmentée et catégorisée en une ou plusieurs représentations abstraites, codant par exemple les traits distinctifs (Lahiri &

Marslen-Wilson, 1990), les phonèmes (voir par exemple Pisoni & Luce, 1987), les syllabes (Mehler, 1981; Segui, 1984). A la fin de la deuxième phase, la représentation abstraite précédemment calculée s'alignerait et s'apparierait à une représentation localisée dans le lexique mental, sous un format morphémique (voir par exemple Caramazza et al., 1988; Taft & Forster, 1975) ou unitaire (Marslen-Wilson, 1984, 1987; Marslen-Wilson & Tyler, 1980; Marslen-Wilson & Welsh, 1978). Durant cette phase d'identification lexicale, regroupant les opérations permettant la localisation de la représentation lexicale correspondant à la forme sensorielle perçue, un ensemble de candidats lexicaux seraient activés sur la base de l'information progressivement disponible. Lorsque l'information deviendra suffisante, le meilleur candidat serait sélectionné. Finalement, les informations sémantiques et syntaxiques associées deviendraient disponibles lors de la troisième phase, celle de l'accès lexical (voir par exemple Klatt, 1980, 1989; le modèle TRACE de McClelland & Elman, 1986, le modèle MERGE de Norris, McQueen & Cutler, 2000, pour accéder à des conceptions différentes de la reconnaissance des mots parlés).

Les principaux modèles de la reconnaissance des mots parlés

Les auteurs s'intéressant à la reconnaissance des mots parlés morphologiquement complexes se sont principalement inspirés des postulats d'un des modèles de la reconnaissance des mots parlés. Ainsi, avant d'entrer dans le vif du sujet en présentant les principales propositions expliquant les caractéristiques spécifiques de la reconnaissance des mots parlés morphologiquement complexes, nous décrirons ce modèle, à savoir les deux versions du modèle COHORT (Marslen-Wilson, 1987; Marslen-Wilson & Welsh, 1978).

Le modèle COHORT I

Le premier modèle a avoir été spécifiquement adapté aux caractéristiques du signal acoustique est celui de Marslen-Wilson et collaborateurs (Marslen-Wilson, 1984, 1987;

Marslen-Wilson & Tyler, 1980; Marslen-Wilson & Welsh, 1978). Ce modèle d'activation directe propose que la reconnaissance des mots parlés se réalise en deux étapes de traitement successives: une phase d'activation des candidats lexicaux de la cohorte initiale et une phase

de désactivation aboutissant à la sélection de la représentation lexicale du mot perçu.

Durant la phase initiale d'activation, les mots dont le ou les deux phonèmes initiaux correspondent au début de la représentation de l'entrée sont activés et forment ce que les auteurs appellent la cohorte initiale. Les représentations des membres de cette cohorte sont progressivement désactivées, au fur et à mesure que leur forme phonémique ne correspond plus à la représentation de l'entrée sensorielle. Un mot cible particulier est reconnu lorsque la cohorte initiale ne contient plus qu'une seule forme lexicale. Ce point de reconnaissance, nommé point d'unicité (PU), peut se situer avant que le mot soit entièrement prononcé. En français, le mot crocodile, peut être reconnu dès que le deuxième /o/ est produit, aucun autre mot de la langue ne commençant par la séquence /kRoko/. Chaque mot est reconnu donc dès que l'information acoustique disponible est suffisante.

Dans cette version, l'appariement entre le signal acoustique et l'entrée lexicale correspondante se réalise de façon séquentielle (de gauche à droite), immédiate et continue. En conséquence, seuls les phonèmes initiaux de l'entrée sensorielle permettent l'activation des membres de la cohorte initiale. Les mots ne commençant pas par les phonèmes déjà perçus ne peuvent entrer dans la cohorte initiale et ne peuvent donc participer à l'étape de désactivation. Cette hypothèse- très forte – pose le problème de la segmentation de la parole continue (déterminer le début de chaque mot au sein du signal). Afin de résoudre ce problème, les auteurs proposent que le début des mots à analyser est à chaque fois prédictible, puisque les mots qui les précédent sont correctement reconnus.

Ce modèle suppose également que le nombre et la fréquence d'occurrence dans la langue des candidats de la cohorte initiale n'ont aucune influence sur la procédure d'identification. Ce n'est que la présence d'un dernier candidat dans la cohorte qui détermine le moment précis auquel un mot est reconnu.

Malgré ses hypothèses parfois réductionnistes (pas d'effet de fréquence par exemple), l'intérêt principal du modèle COHORT I réside dans le fait qu'il permet de prédire le moment précis à partir duquel un mot entendu est reconnu. Plusieurs recherches empiriques ont en effet montré que le point d'unicité (PU) permet de prédire avec une certaine fiabilité le moment auquel un mot est reconnu. Marslen-Wilson (1984) par exemple a mis en évidence une relation entre le temps de réponses obtenus dans une tâche de détection de phonème et le PU des mots. Certains points du modèle COHORT I ont par contre été infirmés. Taft & Hambly (1986) ont observé un effet de la fréquence d'usage pour des mots présentés auditivement, même si leur PU est comparable. Norris (1994) a montré qu'un mot, tel que shigarrette pouvait être reconnu même si le phonème initial est mal prononcé, fait impossible selon COHORT I. Ces deux remarques ont poussé Marslen-Wilson à adapter son modèle. S'en suit le modèle COHORT II.

Le modèle COHORT II

Marslen-Wilson (1987; 1989; 1990) conserve les hypothèses fondatrices de son premier modèle, à savoir les deux étapes successives de traitement, l'activation d'une cohorte initiale de candidats lexicaux et une sélection progressive du candidat correspondant à l'entrée acoustique perçue. A nouveau, le début des mots est considéré comme prédictible, puisque les mots qui les précédent sont supposés être reconnus.

A nouveau, la cohorte initiale contient les mots dont le ou les deux phonèmes correspondent aux segments entendus, à l'innovation près qu'un appariement entre le signal acoustique et l'entrée lexicale imparfait (dont le degré minimal est non spécifié) n'exclut pas obligatoirement le candidat de la cohorte. De tout ou rien, l'appariement devient donc progressif, puisque les mots composés de phonèmes initiaux proches du phonème-cible peuvent appartenir à la cohorte initiale (cf. Norris, 1994). Leur niveau d'activation est proportionnel à la proximité qu'ils entretiennent avec la séquence sonore.

Selon cette deuxième version, un mot est reconnu lorsque la différence d'activation entre la représentation de l'item-cible et celles des compétiteurs atteint un critère prédéterminé. Le nombre de compétiteurs activés peut donc avoir une influence sur le temps nécessaire à la reconnaissance d'un mot particulier. Ainsi, lorsque la cohorte initiale contient un ou plusieurs compétiteurs plus fréquents que le mot-cible, le temps nécessaire à sa reconnaissance sera plus important que celui nécessaire pour reconnaître un mot de même fréquence mais dont les compétiteurs sont moins fréquents (effet de compétition lexicale, Marslen-Wilson, 1990).

Le fait que la qualité de l'appariement entre le signal acoustique et l'entrée lexicale soit exprimée par un degré d'activation permet par ailleurs de rendre compte de l'effet de la fréquence de surface en reconnaissance auditive (Taft & Hambly, 1986). Plus un mot est fréquent, plus son niveau d'activation de base est élevé. Sa reconnaissance en est d'autant plus rapide.

Le format des représentations lexicales diffère de la première à la deuxième version du modèle. Initialement codées sous un format phonémique, les entrées lexicales sont codées à l'aide de traits distinctifs (Warren & Marslen-Wilson, 1987). L'existence d'un niveau sub-

lexical intermédiaire devient inutile. Les traits distinctifs extraits du signal sonore sont directement appariés aux entrées du lexique mental.

Conclusion

Les modèles COHORT I et II ne sont que deux modèles parmi de nombreux autres permettant d'expliquer la reconnaissance des mots parlés (voir par exemple Klatt, 1980, 1989; McClelland & Elman, 1986, Norris, McQueen & Cutler, 2000). Nous n'en décrirons toutefois pas d'autres ici car la majorité des expériences de la littérature qui s'intéressent à la reconnaissance des mots parlés morphologiquement complexes basent leurs hypothèses et leurs interprétations sur les prédictions proposées par l'un ou l'autre modèles COHORT.