Méthodologies d’évaluation - Méthodologie linguistique pour l'évaluation des restitutions et an

Un état des lieux de la question d’évaluation s’impose non seulement dans la perspective de notre recherche de modes d’écoute pour améliorer le niveau de compréhension de l’oral des étudiants du LANSAD, mais également parce que l’évaluation s’inscrit dans toute démarche d’enseignement / apprentissage afin d’aider l’apprenant à situer son niveau, à définir ses objectifs et à valider son travail.

Une des difficultés de l’évaluation de la compréhension de l’oral est que le produit de l’écoute, c’est-à-dire le résultat de la mise en œuvre des processus cognitifs et linguistiques pertinents, ne peut être observé qu’indirectement à travers les compétences de production orale ou écrite (Brown, 2004 : 118). Et la question du biais induit par le recours obligatoire à d’autres compétences semble difficile à résoudre : « One of the

challenges of assessing listening is that it is well nigh impossible to construct a ‘pure’ test of listening that does not require the use of another language skill. » (Alderson et

Le but est alors de trouver le meilleur compromis pour évaluer cette compétence indirectement. À cet effet, nous présentons dans un premier temps les éléments théoriques essentiels à prendre en compte lorsqu’est abordée la question de l’évaluation. Nous analysons ensuite les pratiques actuelles d’évaluation de la compréhension de l’oral. Dans un troisième temps, nous nous interrogeons sur la possibilité de transférer au domaine du LANSAD la méthode d’évaluation par compréhension / restitution telle qu’elle est proposée aux étudiants spécialistes de la discipline lors des épreuves orales du CAPES et de l’agrégation externes.

3.1 Éléments théoriques pour l’évaluation de la compréhension de l’oral

Le terme « évaluation » fait référence à plusieurs réalités dans l’enseignement des langues mais, du contrôle de connaissances à la certification, il s’agit de mesurer le niveau d’un apprenant à un moment donné de son parcours d’apprentissage.

3.1.1 Différents types d’évaluation

Une évaluation est définie en fonction de différents traits qui sont autant de critères à prendre en compte pour atteindre les objectifs visés :

• son aspect [+INFORMEL] (la simple réponse d’un étudiant à une question pendant le cours est un exemple d’évaluation informelle) ou [+FORMEL] dans le cas d’une méthode d’évaluation explicite et structurée qui donne lieu à une note (Brown, ibid. : 5) ;

• son caractère [+FORMATIF] ou [+SOMMATIF] en fonction de l’utilisation qui en est faite dans le parcours de l’apprenant : l’évaluation formative intervient « au cours d’un apprentissage ou d’une formation et permet à l’élève ou à l’étudiant de prendre conscience de ses acquis et des difficultés rencontrées, et de découvrir par lui-même les moyens de progresser » (MEN74

) ; l’évaluation sommative intervient « au terme d’un processus d’apprentissage ou de formation afin de mesurer les acquis de l’élève ou de l’étudiant » (ibid.) ;

• sa forme [+DISCRET] (angl. discrete-point tests), lorsqu’elle porte sur l’un des constituants de la compétence, considéré indépendamment des autres, ou

[+INTÉGRATIF] lorsque la compétence est considérée comme la somme de ses différents éléments (Oller, 1979 cité dans Buck, 2006 / 2001 : 66) ;

• ses traits [+AUTHENTIQUE] dans le cadre d’une approche communicative et

[+PERFORMATIF] dans une perspective actionnelle où la compétence est jugée à travers la performance de tâches « réelles », par exemple celle d’un entretien d’embauche (Brown, ibid. : 10-11).

Les caractères [+FORMEL], [+SOMMATIF] et [+INTÉGRATIF] définissent typiquement les évaluations dans le cadre de l’obtention d’un diplôme, donnant droit à un grade ou un titre, ou de l’obtention d’une certification, attestant de la conformité d’un niveau en fonction de normes en vigueur – le CECR pour les langues par exemple.

3.1.2 Faisabilité, fiabilité et validité

La littérature sur le sujet (voir, entre autres, Alderson et Barnejee, op.cit. ; Bachman, 1990 ; Brown, 2004, op.cit. ; Buck, op.cit.) recense trois facteurs pour juger la pertinence de tout format d’évaluation : sa faisabilité, sa fiabilité et sa validité.

La notion de « faisabilité » d’une évaluation, ou sa facilité d’utilisation, se pose de manière particulière lors de l’évaluation des compétences orales en raison des questions logistiques qu’elle soulève lorsque de grands nombres d’étudiants doivent être évalués en même temps.

La « fiabilité » de l’évaluation dépend de l’instrument de mesure choisi qui doit permettre de reproduire toujours la même évaluation. La fiabilité est garantie « si la nature des informations [que le dispositif d’évaluation] fournit et/ou des appréciations qu'il conduit à formuler ne dépend pas de la personne (observateur, correcteur, évaluateur) à qui son utilisation est confiée » (IRDP75). Cette fiabilité passe, par exemple, par un barème précis de l’évaluation appliqué de la même manière par tout le monde (ibid.)

Cette définition est issue du site créé par l’Institut de recherche et de documentation pédagogique (IRDP) dédié à l’édumétrie. L’édumétrie mesure les résultats de l’apprentissage. http://www.irdp.ch/edumetrie/edumetrie.htm

La « validité » concernerait les conclusions basées sur les résultats obtenus par les apprenants, et non pas tant le résultat de l’évaluation en soi (Alderson et Barnejee,

ibid. : 79). Un dispositif d’évaluation dans son ensemble est valide s’il mesure ce qu’il

souhaite mesurer et non autre chose (ibid.). Bachman définit ainsi ce concept :

Although evidence may be accumulated in different ways, validity always refers to the degree to which that evidence supports the inferences that are made from the scores. (Bachman, 1990 : 236)

Maîtriser la validité des inférences résultant d’un dispositif d’évaluation est complexe en raison des nombreux éléments qui la composent : validité de contenu, validité prédictive, validité écologique, validité de façade, etc.76. Mais selon Alderson et Barnejee (ibid.) la validité de « construit77 », aussi appelée validité « théorique », peut être considérée comme le concept unifiant tous les types de validité. Buck résume ainsi la problématique d’une démarche d’évaluation :

Our test will be useful and valid only if it measures the right construct. Thus, the first task of the test developer is to understand the construct, and then, secondly, to make a test that somehow measures that construct […]. (Buck,

2006 / 2001 : 1)

Assurer la validité d’un dispositif d’évaluation de la compréhension de l’oral est particulièrement délicat car, comme noté en introduction de ce point, son évaluation est nécessairement indirecte. Buck (ibid. : 116-153) recense les éléments à prendre en compte lors de la conception d’une évaluation de cette compétence : les conditions d’écoute, le support de travail, les caractéristiques de la tâche demandée et les caractéristiques du texte. Alderson et Barnejee (op.cit.) nous alertent a priori sur certains éléments pouvant fausser la validité du construit : les caractéristiques générales de l’individu, au-delà de sa compétence en compréhension de l’oral (humeur, motivation, etc.) ; les connaissances préalables de l’apprenant, en particulier lorsque le texte oral est de nature technique ; les compétences individuelles de prise de note lorsque cette compétence est nécessaire à la réalisation de la tâche d’évaluation ; il y aurait aussi un effet de prévisualisation des questions, du nombre d’écoutes autorisées et de la nature vidéo ou sonore du document.

Voir Bachman (ibid. : 236-291), Brown (ibid. : 22-27) et le site de l’IRDP pour une définition de ces termes.

C’est à la lumière de tous ces éléments que nous explorons les moyens mis en œuvre pour évaluer de manière formelle et sommative la compétence de compréhension de l’oral.

3.2 Pratiques d’évaluation de la compréhension de l’oral

La mise en place d’un dispositif d’évaluation de la compréhension de l’oral nécessite de trouver le meilleur compromis possible entre tous les éléments décrits pour assurer un haut degré de validité aux inférences basées sur les résultats.

3.2.1 Influence des conditions d’écoute et du document support

Assurer la validité du construit « compréhension de l’oral » réclame de mettre les candidats dans des conditions d’écoute identiques pour tous afin d’assurer l’équité de l’épreuve, ce qui nécessite une sonorisation parfaite.

Les questions logistiques d’équipement et de qualité acoustique des salles pourraient être un frein à l’évaluation de la compréhension de l’anglais oral lorsque de grands nombres de candidats sont concernés. Cette contrainte logistique explique peut-être l’absence d’une épreuve de compréhension de l’anglais oral à l’examen unique national du baccalauréat. Cette épreuve réclamerait en effet qu’un très grand nombre de salles soit équipé pour diffuser un son de qualité à tous les candidats en même temps. Ces mêmes contraintes logistiques risquent de se poser lorsque la validation d’une certification en langue sera obligatoire pour l’obtention d’un diplôme, comme cela est prévu pour tous les masters d’enseignement à partir de la rentrée universitaire 2011.

Les questions de qualité d’écoute encouragent à évaluer la compréhension de l’oral à partir d’une écoute avec casque individuel, par exemple dans des laboratoires de langues. La gestion de grands groupes est alors difficile car l’équité entre les candidats n’est garantie qu’à la condition qu’ils ne communiquent pas entre eux : le schéma d’articulation des processus de haut et bas niveau en figure 12 montre l’influence des connaissances préalables du contenu général du document sur la compréhension de l’oral dans son ensemble.

L’écoute individuelle pose cependant la question pratique de la manipulation par le candidat du document sonore et du nombre d’écoutes autorisé78. Alderson et Barnerjee (ibid. : 89) soulignent l’effet du nombre d’écoutes sur le niveau de compréhension de l’oral : jouer le passage à deux reprises faciliterait la compréhension. Dans la perspective de rendre l’évaluation la plus authentique possible, Buck (ibid. : 170) défend l’idée de distribuer les questions à l’avance et de ne jouer le document sonore qu’une seule fois : « In virtually all real-world listening situations we hear the text

once, and only once, and fast, automatic processing of language is a basic listening ability that we need to test. ». Selon l’auteur, si les candidats manquent une information,

ils doivent montrer qu’ils sont capables d’activer des stratégies de compensation ou d’inférence adéquates pour combler ce vide. Il admet toutefois que jouer le document une seconde fois « n’est pas si artificiel que cela »79 car la situation d’évaluation réclamerait une compréhension beaucoup plus précise que dans la « réalité » (« in

normal conditions »).

Comme Buck le fait remarquer, une situation d’évaluation est par définition artificielle. Le choix de limiter, ou non, le nombre d’écoutes et d’autoriser, ou non, l’étudiant à gérer sa propre écoute ne se pose selon nous pas en termes d’authenticité de la situation d’évaluation mais dépendrait plutôt de trois facteurs : les contraintes liées à l’environnement logistique, la nature du reste du dispositif d’évaluation, en particulier de la tâche demandée, et les objectifs d’évaluation.

Les conditions d’écoute posent enfin la question de la nature du document, vidéo ou sonore, pour l’évaluation du construit « compréhension de l’oral ». Alderson et Barnejee (ibid. : 89) et Buck (ibid. : 123) citent les travaux de Gruba (1997), de Ginther (2000) et d’Alderson et al. (1995) montrant que seules les vidéos dont les images correspondent exactement au contenu oral améliorent la compréhension de l’oral. Selon ces mêmes travaux de recherche, une vidéo dont les images sont uniquement contextuelles dégraderait au contraire les résultats en compréhension en raison du trop

Les logiciels de suivi fournis avec les laboratoires multimédias de langue contiennent pour la plupart une fonction « diffusion du son » sur chaque poste élève qui permet au professeur de contrôler l’écoute individuelle de chacun tout en garantissant une qualité sonore optimale.

« [P]laying the text a second time does not appear such an unnatural thing to do. » (Buck, ibid. : 171)

grand nombre de tâches à traiter80. Outre les besoins logistiques accrus qu’un tel support réclame et les problèmes techniques qu’il peut poser, les résultats de ces recherches invitent à questionner l’intérêt de proposer un document vidéo pour évaluer le construit « compréhension de l’oral » car l’utilisation de la vidéo ne garantit alors plus que l’on évalue uniquement cette compétence81.

3.2.2 De la discrimination phonologique aux textes à trous

Nous nous intéressons à présent aux tâches proposées pour évaluer ce construit. Brown (op.cit.) définit trois grandes tâches d’écoute lors d’une évaluation de compréhension de l’oral : les tâches d’écoute intensive, sélective et extensive, qui se comprennent sur une échelle du [+DISCRET] au [+INTÉGRATIF].

Les tâches d’écoute intensive visent à vérifier la compréhension d’un élément discret, généralement au sein d’un passage très court. Il s’agit par exemple de tâches de discrimination phonémique ou de questions à choix multiples (QCM) qui se concentrent uniquement sur la reconnaissance d’une petite partie de la phrase orale considérée (voir Brown, ibid. : 123-125 et Buck, ibid. : 63-66 pour des exemples). Selon Buck, cette catégorie de tâches serait sous-tendue par le modèle d’apprentissage béhavioriste. On les trouve rarement aujourd’hui lors d’une évaluation formelle à caractère sommatif mais elles peuvent être le support d’une évaluation formative pour contrôler les savoirs phonologiques et lexicaux et proposer une remédiation, après une phase d’entraînement spécifique.

Les tâches d’évaluation les plus répandues pour une écoute sélective seraient les textes à trous (ibid.). Brown et Buck reconnaissent tous deux des limites importantes à ce format d’évaluation. Tout d’abord, ils estiment que ces tâches peuvent rapidement se transformer en évaluation de la compréhension de l’écrit lorsque les mots peuvent être inférés en fonction du contexte ou des contraintes grammaticales. Pour remédier à ce problème, ils suggèrent de supprimer les mots lexicaux, moins faciles à inférer. Cette

La théorie de la charge cognitive, que nous définissons au chapitre 5, prédit ce résultat.

Il existe d’autres moyens pour contextualiser un document, plus simples à mettre en œuvre que l’utilisation du support vidéo. Buck suggère l’utilisation de photos mettant en scène les interlocuteurs, mais le recours à l’image est délicat car elle doit être monosémique. Il est aussi possible d’annoncer et d’écrire le titre du document ou de situer le contexte par un court texte écrit dans la L1 (afin de ne pas créer d’interférence avec la compétence de compréhension de l’écrit).

technique signifie toutefois que sont supprimés les mots les moins difficiles à reconnaître à l’oral (Ch.1, 3.3.3). De plus, en laissant le reste du texte visible à l’étudiant, la plus grande partie du travail de segmentation de la chaîne parlée est effectuée pour lui, et les textes à trous ne mesurent alors que la reconnaissance lexicale d’un mot donné et non la compréhension. Buck (ibid. : 70) conclut d’ailleurs ceci : « It

is difficult to claim that the listening-recall test provides evidence of comprehension. ».

Les tâches de transfert d’information (Brown, ibid. : 127-129) sont des tâches d’écoute sélective plus intégrative que les tâches de texte à trous. Il s’agit par exemple de remplir une grille d’écoute (un emploi du temps par exemple), de tracer un chemin sur une carte, de décider quelle phrase décrit le mieux une photo ou quelle image représente le mieux le contenu d’un passage. Comme ces exemples le montrent, les tâches de transfert sont limitées à des textes très courts et concrets qui autorisent des représentations simples.

3.2.3 Les questions de compréhension

Les limites des exercices que nous venons de décrire expliquent que les tâches d’évaluation de la compréhension de l’oral par des questions-réponses sont parmi les plus courantes. Les questions peuvent porter sur une écoute extensive du texte (questions globales) mais aussi sur une écoute sélective (questions détaillées).

Buck (ibid. : 134-146) décrit les trois formats les plus répandus : les questions visant des réponses courtes, les QCM, et les questions en vrai/faux. Ce dernier format est critiqué en raison du facteur chance. Le format QCM avec trois ou quatre réponses possibles limite ce facteur chance. Il ne peut néanmoins assurer la validité du construit que si les réponses nécessitent réellement de comprendre. Dans le tableau 6 ci-dessous nous incluons un exemple de QCM extrait de Brown (ibid. : 133) et de Buck (ibid. : 143) :

Une question extraite d’un QCM Source du QCM inconnue

Brown (ibid. : 133)

Une question extraite d’un QCM Source du QCM : TOEIC, 1993

Buck (ibid. : 143)

13. The doctor said that Lynn___ (A) flew to the last weekend (B) must not get the flu (C) probably has the flu

Why is Carlos changing his job ? (a) He is lonely.

(b) He is moving to another city. (c) He has lost interest.

(d) He is ill.

Tableau 6 - Exemples de QCM pour l'évaluation de l'évaluation de la compréhension de l’anglais oral.

Il n’est pas nécessaire de comprendre l’anglais oral pour répondre à la question dans la colonne de gauche : il faut connaître à l’écrit le mot « flu » et se servir de son bon sens. Répondre à la question à choix multiple dans la colonne de droite nécessite d’écouter le passage. Toutefois, plus qu’une question de compréhension de l’oral, il s’agit d’une question de reconnaissance d’une expression idiomatique : le court passage oral contient en effet l’expression « to be tired of » au début de la deuxième phrase « Yes, he’s tired of the restaurant business ». En outre, effectuer le bon choix dans les réponses fait appel à la compétence lexicale à l’écrit.

Si les QCM sont un moyen pratique d’évaluer la compréhension de l’oral, les deux exemples ci-dessus montrent que, même avec un niveau d’expertise élevé dans la construction des QCM, la validité du construit n’est pas toujours assurée. Freedle et Kostin (1999) ont relevé dix-sept facteurs susceptibles de faciliter ou de compliquer la tâche de compréhension à partir de l’analyse de 337 QCM du TOEFL, pourtant conçu par des experts en la matière s’il en est. Deux facteurs en particulier affectent le niveau de difficulté de la tâche : l’endroit où se trouve l’information clef dans le passage écouté et le degré de « chevauchement lexical » (angl. lexical overlap), défini par la présence dans la question des mots du texte oral.

Le biais induit par le degré de chevauchement lexical incite à discuter du problème de la langue dans laquelle les questions sont posées. Cette discussion n’est pas pertinente pour des évaluations à caractère international qui ne prennent pas en compte la L1 de l’apprenant mais elle l’est au niveau national, pour l’évaluation des étudiants francophones du domaine LANSAD. Poser les questions, et éventuellement proposer des réponses multiples, en anglais induit deux biais : l’interférence possible du niveau de compétence en compréhension de l’écrit et le degré de chevauchement lexical. Le recours au français évite ces deux écueils mais implique pour le candidat de mettre en œuvre ses compétences de traduction, qui vont au-delà de la compétence de compréhension de l’anglais oral. Il s’agit d’effectuer les choix les plus pertinents pour évaluer au mieux le construit visé.

3.2.4 De la dictée à la restitution

Parce qu’elle part directement du texte oral, la tâche de dictée (angl. dictation) évite à la fois le problème de la langue choisie et les biais induits par la nature de la question

posée. Elle permet aussi de dépasser l’aspect trop ponctuel des textes à trous ou des questions à réponse courte et de s’intéresser à des textes plus longs.

L’exemple de dictée proposé par Brown (ibid. : 131) ressemble à l’exercice de dictée en français L1 dont l’objectif est de vérifier les compétences en orthographe et en grammaire des élèves. La tâche d’évaluation que l’auteur décrit comprend trois lectures d’un court passage de 50 à 100 mots : une première lecture normale, une lecture à un débit ralenti avec de longues pauses entre les différents groupes syntaxiques (seuls le verbe et son complément d’objet ne sont pas séparés par une pause) qui ne dépassent pas plus de quatre ou cinq mots, puis une dernière écoute normale.

Si Brown constate que de nombreuses recherches ont montré l’intérêt de l’exercice de dictée pour mesurer le niveau de compréhension de l’oral, il reste dubitatif :

However, a word of caution lest you assume that dictation provides a quick and easy method of assessing extensive listening comprehension. If the bursts in a dictation are relatively long (more than five-word segments), this method places a certain amount of load on memory and processing of meaning. (Brown, 2004 : 132)

Lorsqu’il mentionne les possibles interférences des capacités mnésiques pour la

Dans le document Méthodologie linguistique pour l'évaluation des restitutions et analyse expérimentale des processus de didactisation du son (Page 120-144)