• Aucun résultat trouvé

1.4. Interactivité entre processus ascendants et descendants

1.4.4. Processus descendants et prédiction

Un nombre croissant de psycholinguistes, et plus généralement, de psychologues cognitivistes s’intéresse au rôle des prédictions dans le fonctionnement de la compréhension et du cerveau en général. Dans son article de 2013, Whatever next? Predictive brains, situated agents, and

the future of cognitive science, par exemple, le psychologue Andy Clark qualifie le cerveau de

« prediction machine » (Clark, 2013, p. 181), et Kuperberg et Jaeger (2016, p. 33) affirment que « in real-world communicative situations, the use of prediction to comprehend language

is the norm ».

Plusieurs linguistes que nous avons cités mentionnent également, lorsqu’ils parlent des processus descendants, l’importance des attentes du locuteur : « listener expectations about

information in the text » (Vandergrift & Goh, 2012, p. 18), ou « the input being interpreted in the light of such expectations » (Færch & Kasper, 1986, p. 264). Ces attentes mènent à des

prédictions (« possible meaning is predicted », ibid., p.264) qui sont ou non confirmées par le signal. Dans les deux articles ci-dessus, les prédictions des auditeurs ne sont mentionnées que pour les hauts niveaux de traitement, c’est-à-dire une fois que le sens (« information »/

« meaning ») intervient. Les auteurs font probablement référence, entre autres, aux études que

nous avons citées sur l’utilisation de schémas culturels pour la compréhension des textes (les travaux de Kintsch et son équipe par exemple depuis les années 1970), ou à l’utilisation de scénarios stéréotypés (scripts) qui facilitent la compréhension de situations de la vie courante (Long, 1989). Cependant, tous les exemples de traitements descendants que nous avons mentionnés, y compris ceux intervenant à l’étape de décodage, peuvent être réinterprétés comme des exemples d’utilisation des prédictions.

1.4.4.1. exemples de traitement prédictif

Au niveau du décodage, si l’on prend l’exemple de la récupération de phonème (Warren & Warren, 1970), c’est parce que nos connaissances lexicales nous informent que la suite de

phonèmes /ˈledʒɪ/ ne peut être suivie que d’un /s/, que nous nous attendons à l’entendre et ne remarquons même pas qu’il est absent. C’est aussi parce qu’on s’attend à ce qu’un homme ait une voix plus grave et une femme une voix plus aiguë qu’un signal ambigu entre un /s/ et un /ʃ/ sera interprété comme un /s/ dans un cas, et un /ʃ/ dans l’autre (Strand & Johnson, 1996). Si l’on « monte » à présent d’un niveau et que l’on se concentre sur la reconnaissance lexicale, nous avons également donné des exemples où le contexte syntaxico-sémantique conduisait les locuteurs à anticiper un mot, qui était alors reconnu plus rapidement. Les expériences de Grosjean (1980) montrent ainsi que plus le contexte qui précède est long et contraignant, mieux le mot final est reconnu, et celles de Marslen-Wilson (1975) qu’un mot dans un contexte contraint peut être répété avant qu’il ait fini d’être prononcé, parce que l’auditeur anticipe la fin du mot. D’autres expériences d’oculométrie comme celles d’Altmann et Kamide (1999) montrent que dès que les auditeurs entendent le verbe eat, par exemple, leur regard se porte sur les objets comestibles représentés et négligent les autres. Dans une étude plus récente utilisant les potentiels évoqués (ERP ou evoked response potentials, c’est-à-dire la captation des signaux électriques envoyés par les neurones, grâce à des électrodes placées sur le crâne des sujets), Delong et al. (2005) montrent que les prédictions sémantiques venues du contexte peuvent avoir une traduction au niveau du traitement du signal (écrit, dans leur cas). Les lecteurs s’attendent à ce que le début de phrase The day was breezy so the boy went

outside to fly … se continue avec le mot kite. Cette prédiction se traduit, dès l’article qui

précède, par un traitement différent qui donne lieu à un marqueur de surprise (N400) si l’article qui suit le verbe fly est an (qui ne va pas avec le nom kite) plutôt que a. Il est donc clair que les locuteurs ont fait une prédiction assez spécifique sur la forme du nom qui va suivre et, partant, sur celle de l’article qui le précède. Cela s’applique en particulier dans les situations de dialogue. D’après Magyari et de Ruiter (2012), et Pickering et Garrod (2013), la vitesse d’échange des tours de parole s’explique par l’utilisation de prédictions : les interlocuteurs prédisent quand le tour de parole de leur partenaire va se terminer et ce que ces derniers vont dire, afin d’être prêts à répondre quand leur tour viendra.

Même un traitement qui est normalement analysé comme découlant d’un processus ascendant (exploitation d’informations de bas niveau contenues dans le signal) peut aussi être vu comme un exemple d’utilisation de prédictions. Nous avons déjà évoqué le phénomène de coarticulation qui fait qu’on commence à articuler le son suivant avant d’avoir fini le précédent. Cette information est utilisée par les auditeurs pour anticiper le son qui va suivre.

Dahan et al. (2001) ont ainsi montré, avec une expérience d’oculométrie, que des sujets qui entendent le mot net dont les consonne et voyelle initiales viennent du mot neck commencent par regarder l’image d’un cou (neck), alors que la consonne /k/ n’apparaît pas dans le signal. C’est donc qu’ils ont utilisé l’information présente dans la voyelle /e/ pour prédire la consonne qui aurait dû suivre. Quand leur prédiction ne se trouve pas confirmée, la consonne suivante étant /t/, ils renoncent finalement à leur hypothèse initiale mais mettent ainsi plus de temps à reconnaître le mot-cible (net).

Nous constatons donc que les prédictions peuvent intervenir à tous les niveaux, depuis la reconnaissance des sons jusqu’à la compréhension des relations entre les phrases d’un texte et la construction d’un modèle de situation. Elles ne sont donc pas spécifiques aux niveaux supérieurs porteurs de sens. Certaines de ces prédictions sont clairement d’origine linguistique (prise en compte des effets de coarticulation, connaissances lexicales ou grammaticales), mais d’autres viennent du contexte (visuel, culturel, ou autre). Il n’est d’ailleurs pas toujours facile de les distinguer. En effet, comme le remarque Casasanto (2008), même si la source d’information proprement dite est extralinguistique (par exemple, la taille, le sexe ou l’ethnicité de notre interlocuteur), les connaissances auxquelles elle a abouti sont, elles, linguistiques :

Just as listeners might predict that t/d deletion is more likely before a consonant than before a vowel, they are predicting that it is more likely from a black speaker than from a white speaker. The similarity of these predictive processes makes it unsatisfying to classify the socially based phenomenon as stemming from outside the language system. (Casasanto, 2008, p. 803)

C’est pourquoi nous avions remarqué plus haut qu’il ne nous paraissait pas satisfaisant de classer les processus ascendants ou descendants en fonction de l’origine des connaissances utilisées. En dernière analyse, ces connaissances ont toujours une traduction linguistique.

1.4.4.2. origine des prédictions : fréquence et apprentissage statistique

Si nous sommes capables de prédire quel son va suivre, quel mot va suivre, quels types de phrases vont suivre (à l’intérieur d’un genre textuel contraint), c’est que nous sommes sensibles à la fréquence des événements auxquels nous assistons. Les linguistes savent depuis longtemps que la fréquence des unités linguistiques joue un rôle important dans le traitement du langage. Dès 1957, Howes montrait que les mots plus fréquents étaient mieux reconnus à l’oral que les mots moins fréquents (le résultat était connu pour l’écrit depuis au moins 20 ans : Preston, 1935). En 1986, Paul Luce constata que les mots fréquents étaient également

reconnus plus rapidement - sans doute s’attend-on plus à entendre un mot fréquent qu’un mot rare : « A word’s frequency represents its prior probability and hence constitutes a prediction

as to how likely the word is to appear in linguistic experience » (Norris et al., 2016, p. 4).

Cependant, ce n’est qu’en 1996 que Jenny Saffran et son équipe ont démontré que la mémorisation de la fréquence des unités linguistiques (sous forme de probabilités transitionnelles entre les syllabes) joue un rôle dès le début de l’acquisition d’une langue. Nous avons déjà résumé en début de chapitre ces expériences, conduites avec des enfants de huit mois et des adultes, qui sont capables de repérer des nouveaux « mots » (groupes phonologiques récurrents) après avoir écouté pendant deux minutes des suites de syllabes (sans intonation) du type bidakupadotigolabubidaku. Ces capacités s’exercent à la fois sur le long terme (pour estimer la fréquence d’un mot, il faut une grande quantité de données sur lesquelles l’estimation de la fréquence s’est peu à peu affinée), mais également sur le court terme. Les locuteurs sont capables de s’adapter rapidement aux caractéristiques changeantes de l’input (Fine et al., 2013), même quand il s’agit d’une langue qu’ils ne connaissent pas : dans les expériences de Saffran, les suites de syllabes à segmenter ne durent que quelques minutes.

Cette sensibilité à la fréquence des événements dont nous faisons l’expérience n’est pas limitée à la sphère linguistique : l’apprentissage statistique chez les êtres humains5 existe aussi pour l’apprentissage des séquences de symboles visuels, par exemple (Arciuli, 2018). Il s’agit en fait d’une capacité générale à détecter les régularités dans le monde qui nous entoure. Nick Ellis, dans son article fondateur paru en 2002, Frequency Effects in Language

Processing, et dans d’autres écrits, fait le tour des implications de cette sensibilité à la

fréquence :

What’s the next letter in a sentence beginning T… ? Native English speakers know it is much more likely to be h or a vowel than it is z or other consonants, and that it could not be q. But they are never taught this. What is the first word in that sentence? We are likely to opt for the, or that, rather than thinks or theosophy. If The… begins the sentence, how does it continue? “With an adjective or noun,” might be the reply. And, if the sentences starts with The cat… , then what? And then again, how should we complete The cat sat on the… ? Fluent native speakers know a tremendous amount about the sequences of language at all grains. We know how letters tend to co-occur (common bigrams, trigrams, and other orthographic regularities). Likewise, we know the phonotactics of our tongue and its phrase structure regularities. We know thousands of concrete collocations, and we know abstract generalizations that derive

from them.[…] Psycholinguistic experiments show that we are tuned to these regularities in that we process faster and most easily language which accords with the expectations that have come from our unconscious analysis of the serial probabilities in our lifelong history of input. (N. C. Ellis, 2003, p. 75)

La connaissance des fréquences des éléments linguistiques et de leur cooccurrence intervient donc à tous les niveaux, et est essentielle pour la prédiction des éléments qui vont suivre lors du traitement de l’input : « the way that a rational comprehender can maximize the

probability of accurately recognizing new linguistic input is to use all her stored probabilistic knowledge, in combination with the preceding context, to process this input » (Kuperberg &

Jaeger, 2016, p. 37).

1.4.4.3. les modèles bayésiens

La théorie bayésienne est l’une des façons d’expliquer comment le cerveau peut tirer parti de la fréquence des événements observés afin de formuler des prédictions. Elle permet de comprendre comment il est possible de tirer des conclusions et de faire des prédictions à partir des informations partielles et souvent ambiguës fournies par notre environnement en général et nos capteurs sensoriels en particulier. Regier et Gahl (2004) reprennent le raisonnement original du mathématicien français Laplace (1749-1827), qui a posé les bases des statistiques qui ont ensuite été qualifiées de bayésiennes. Nous voyons le soleil se lever tous les matins de notre existence. Pouvons-nous en tirer la conclusion que le soleil se lèvera certainement demain (hypothèse 1) ? Il est possible que le soleil n’ait que 50% de chances de se lever chaque jour (hypothèse 2), et que le fait qu’il se soit pour l’instant toujours levé soit le fruit du hasard. Cependant, si cette hypothèse 2 était vraie, je m’attendrais tout de même à avoir été témoin de jours où il ne se lève pas. Plus j’accumule d’observations, moins cette hypothèse paraît donc plausible (et inversement, plus l’hypothèse 1 l’est). Le fait de ne pas observer quelque chose (qu’on attendrait) apporte ainsi des informations en soi, et chaque nouvelle observation nous permet d’augmenter (ou de diminuer) la probabilité que notre hypothèse initiale soit vraie, et de la mettre ainsi à jour.

Norris et McQueen (2008) appliquent ce raisonnement à la reconnaissance aurale des mots dans leur modèle Shortlist B. Comme le signal n’est jamais sans ambiguïté, la reconnaissance sera toujours probabiliste. Si nous prédisons l’arrivée d’un mot (hypothèse initiale), le calcul de cette probabilité est basé sur la fréquence du mot (on aura plus de chance de rencontrer un mot fréquent qu’un mot rare), ainsi que sur le contexte, qui réduit l’éventail des mots

possibles6. Cette probabilité ainsi estimée est la probabilité a priori de notre prédiction, antérieure au contact avec les données acoustiques. Une fois que les données acoustiques commencent à arriver, nous mettons à jour notre hypothèse en calculant la probabilité que ces données soient observées étant donné notre hypothèse. Je m’apprête à entendre le mot cat et j’entends le son /k/, cela est compatible avec mon hypothèse ; si j’entends /g/, c’est moins plausible mais encore possible ; si c’est /f/, il y a peu de chances que mon hypothèse soit confirmée. Nous mettons ainsi à jour nos hypothèses initiales au fur et à mesure (et en parallèle puisqu’il y a souvent plusieurs hypothèses possibles), jusqu’à ce qu’un mot soit reconnu.

L’utilisation des prédictions permet ainsi de mieux expliquer l’interaction des processus descendants et ascendants qui fonctionnent en tandem. Les informations déjà connues (fréquence, contexte gauche) sont utilisées pour anticiper ce qui va venir (processus descendants) et faciliter le traitement du signal (processus ascendants).

1.4.4.4. intérêt des prédictions

Nous avons décrit en détail le mécanisme de prédiction sans nous poser la question de son intérêt. Pourquoi nos connaissances de la fréquence des unités linguistiques auraient-elles un rôle à jouer avant le traitement de la nouvelle information (et non pendant, par exemple) ? La réponse généralement apportée par les chercheurs est que ce mécanisme de prédiction permet une plus grande rapidité de traitement. Si l’on est déjà prêt à entendre un son ou un mot, celui-ci peut être traité plus rapidement que quand l’on s’attend à entendre autre chose. Dans ce dernier cas, nous sommes « surpris » par ce que nous entendons et nous perdons du temps à revenir de notre surprise. C’est ainsi que Levy (Levy, 2008, p. 1128) considère que « surprisal serves as a causal bottleneck between the linguistic representations constructed

during sentence comprehension and the processing difficulty incurred at a given word within a sentence ». Plus un mot est attendu, plus sa reconnaissance est rapide (par exemple, dans

une langue où le verbe est en position finale, plus la phrase s’allonge et plus l’arrivée du verbe est probable). Nous avons d’ailleurs mentionné plus haut le fait que les mots fréquents (Luce, 1986b) ou placés dans un contexte facilitateur (Grosjean, 1980) étaient reconnus plus vite que les autres. Le phénomène d’amorçage (priming) peut également être réanalysé dans ce sens (Fine et al., 2013). L’amorçage est un paradigme expérimental où « la présentation rapide d'un mot conduit à faciliter le traitement d'un autre mot présenté juste après s'il existe un lien

sémantique entre les deux mots successifs » (Gaonac’h, 2005, p. 225). Quand on présente un nouveau mot qui est relié au premier par le sens, ou une phrase qui utilise la même structure syntaxique, le temps de réaction pour reconnaître ou traiter ce nouvel élément est réduit par rapport à d’autres éléments contrôles qui ne sont pas liés au mot ou à la phrase de départ. Fine et ses collègues considèrent que l’apparition du premier mot ou phrase nous conduit à changer notre estimation de la fréquence de cet élément (il est plus fréquent que prévu), et donc à nous attendre à l’entendre plus souvent. Quand il est présenté de nouveau, nous réagissons donc plus rapidement.

Outre un traitement plus rapide, l’utilisation des prédictions permet également de fonctionner à partir de moins de données acoustiques pour confirmer l’interprétation (nous pouvons relier ceci au fait que les mots fréquents sont mieux reconnus que les autres dans un contexte bruyant, Howes, 1957). Tulving et Gold (1963) constatent ainsi que plus une hypothèse est fortement activée, moins elle requiert d’information pour être confirmée : « the greater the

strength of the hypothesis, the less the amount of appropriate information necessary to confirm it » (Tulving & Gold 1963, p.327, cités par Van Petten & Luka, 2012). En effet, les

différentes sources d’information exploitées par les locuteurs sont complémentaires, et si le contexte apporte une importante quantité d’information, ils auront moins besoin des informations contenues dans le signal. Quand le contexte est fortement prédictif, il permet ainsi la compréhension dans des conditions non optimales. La compréhension en conditions réelles peut en effet être assez différente des conditions qui caractérisent les expériences psycholinguistiques qui ont lieu dans un environnement contrôlé où les conditions d’écoute sont en général optimales. Dans la vie réelle, le signal est souvent de mauvaise qualité, du fait du bruit environnant en particulier : « we communicate in noisy and uncertain environments

— there is always uncertainty about the bottom-up input » (Kuperberg & Jaeger, 2016, p. 35).

Cette incertitude née de la mauvaise qualité ou, plus généralement, de la variabilité du signal pourrait être paralysante en conditions réelles si un mécanisme compensatoire n’intervenait pas.

1.4.5. Conséquences pour la compréhension en L2

Nous avons vu dans les paragraphes qui précèdent que la compréhension repose en partie sur l’utilisation de prédictions qui permettent de traiter le signal plus rapidement et plus efficacement en conditions naturelles d’écoute (bruit environnant, style d’élocution de l’interlocuteur et plus généralement variabilité du signal). Ces prédictions supposent une

connaissance fine (acquise de façon implicite) de la fréquence d’occurrence des unités linguistiques de différents niveaux, ainsi que de leur cooccurrence. Dans la compréhension en langue étrangère, cela peut poser deux types de problèmes. D’une part, on peut supposer que les apprenants n’ont pas été exposés à suffisamment de données linguistiques en langue étrangère pour avoir acquis une connaissance suffisante des fréquences d’occurrence et de cooccurrence des unités linguistiques. D’autre part, la prédiction est une opération supplémentaire qui se rajoute aux processus déjà complexes de la compréhension, qui nécessitent l’activation en cascade de nombreux niveaux de traitement.