• Aucun résultat trouvé

1.4. Interactivité entre processus ascendants et descendants

1.4.3. Exemples d’interaction de contraintes

Etant donné que les locuteurs L1 utilisent à la fois des processus ascendants et descendants lors de la compréhension de l’oral, on peut se demander quel est le rôle respectif de ces deux types de processus. C’est la question à laquelle Sven Mattys et son équipe (Mattys et al., 2005; L. White et al., 2010, 2012) ont essayé de répondre dans le cadre de la segmentation lexicale, c’est-à-dire le découpage du flux sonore en mots. La segmentation est la deuxième étape du modèle de Cutler et Clifton (1999), entre le décodage et la reconnaissance, c’est une étape qui est spécifique au traitement de la parole, et c’est également celle qu’il est le plus difficile de séparer des autres étapes, en particulier des étapes qui lui font suite. C’est donc un terrain privilégié pour observer l’interaction des différentes sources d’information.

Mattys et ses collaborateurs mettent en regard deux types de modèles de segmentation et de reconnaissance lexicale : d’une part, les modèles qui, outre les informations phonémiques, n’utilisent que les informations lexicales, et d’autre part, ceux qui insistent sur les

informations présentes dans le signal (en plus des informations phonémiques) qui peuvent aider à la segmentation (Mattys et al., 2005). Les premiers, parfois appelés segmentation by

lexical substraction, supposent que la segmentation est le résultat du processus de compétition

lexicale, qui met en concurrence toutes les possibilités de découpage du signal. Confrontés à la suite de phonèmes /hikɔ:ldɪmi:diətli/, par exemple, un auditeur anglophone trouvera le découpage he called immediately sans avoir besoin d’utiliser d’indices infra-phonémiques, simplement parce que c’est la seule façon possible de rendre compte de tous les phonèmes qui la composent en utilisant des mots existants. Un exemple de ce genre de modèle est le modèle implémenté TRACE (McClelland & Elman, 1986). Dans TRACE, les différents mots ou suites de mots compatibles avec le signal sont activés en parallèle jusqu’à ce que l’un deux « gagne » le processus de sélection parce que son activation est la plus haute ou parce que c’est le seul qui reste à la fin du processus. Le deuxième type de modèle (par exemple, Christiansen et al., 1998) utilise plus directement les indices présents dans le signal que nous avons présentés au début de ce chapitre, à savoir les indices prosodiques, les indices phonotactiques et les indices allophoniques (infra-phonémiques). Dans ce cas-là, il n’est pas forcément nécessaire de connaître les mots pour être capable de découper le signal ; il suffit de reconnaître les indices de segmentation. Ces modèles sont donc plus ascendants

(bottom-up), alors que les premiers sont d’inspiration plus descendante (top-down).

White et al. (2012) comparent l’utilisation des connaissances lexicales (processus descendants) et des informations phonotactiques provenant du signal (processus ascendants) et constatent la primauté des informations lexicales. Lors d’une expérience d’amorçage intermodal, leurs sujets reconnaissent plus vite, et donc segmentent plus facilement, le mot

bag dans le mot composé plastic bag (un composé fréquent) que dans garlic bag (non attesté),

alors que les indices phonotactiques sont identiques (les deux mots sont séparés à la frontière /kb/). Par contre, ils ne reconnaissent pas plus rapidement lipstick dans cream lipstick (où la frontière de mots est marquée par le diphone /ml/, pratiquement jamais rencontré à l’intérieur d’un mot, ce qui devrait aider à la segmentation) que dans drab lipstick, où on trouve la suite /bl/ à la frontière, alors qu’elle est beaucoup plus courante à l’intérieur des mots du lexique anglais (ce qui devrait gêner la segmentation). D’après cette étude, ce sont donc essentiellement les connaissances lexicales (ici la connaissance des noms composés fréquents) qui sont exploitées, de préférence aux informations plus subtiles provenant du signal.

Mattys et al. (2005), avec des productions moins authentiques (lues et non produites lors d’interactions spontanées), avaient déjà montré que les indices venant du signal acoustique avaient moins de poids que les informations lexicales. Plus précisément, leur étude montrait que les informations prosodiques avaient moins de poids que les indices phonotactiques et allophoniques, qui eux-mêmes avaient moins de poids que les indices lexicaux. Par contre, l’information prosodique résistait beaucoup mieux à la dégradation des conditions d'écoute : en conditions bruyantes, par exemple, les indices prosodiques (l'accent lexical dans leur étude) sont plus robustes que les autres et sont donc utilisés en priorité. C'est ce qu'on voit sur la Figure 1.4 ci-dessous, qui représente visuellement (par la largeur du triangle gris qui diminue en descendant) la hiérarchie des indices utilisés en compréhension : pour reconnaître un mot, l'utilisation du contexte syntaxico-sémantique prime (comme cette hypothèse n’a pas été testée dans leur étude, nous avons grisé cette partie du schéma), suivi des connaissances lexicales. Les indices phonotactiques et allophoniques d'une part, et prosodiques d'autre part, ont un rôle moindre à jouer, sauf quand le contexte est appauvri, soit parce que le mot est inconnu, soit parce qu'il y a trop de bruit pour entendre distinctement les segments, auquel cas la prosodie reste l'indice le plus fiable.

Figure 1.4 – Sources possibles d’information pour la segmentation lexicale, d'après Mattys et al. (2005). L’importance relative des différents indices est représentée par la largeur du triangle inversé.

Bien qu’un grand nombre d’études montrent que les locuteurs sont capables d’exploiter des indices acoustiques venant du signal, qu’ils soient prosodiques (par ex. Cutler & Norris, 1988; Slowiaczek, 1990), infra-phonémiques (M. H. Davis et al., 2002; Salverda et al., 2003), ou phonotactiques (McQueen, 1998), il semble que les informations sémantiques (et en particulier lexicales) gardent toujours un rôle prépondérant.

Notons cependant que les études de Mattys et de son équipe n’étudient pas directement le rôle respectif de la reconnaissance des phonèmes et des connaissances lexicales. Comme ils supposent les phonèmes reconnus, ils comparent en fait les indices supra- et infra-phonémiques, sans que le rôle des indices phonémiques proprement dit soit analysé en détail. D’autres études montrent d’ailleurs que quand le signal est clair, les non-mots, qui n’apportent aucune information lexicale, sont facilement reconnus (Ganong, 1980).