L’utilité d’un test - Les qualités des tests langagiers

1 Pratiques et dispositifs: quelques exemples

6. Les langues testées

1.4 Les qualités des tests langagiers

1.4.1 L’utilité d’un test

L’utilité est considérée comme la qualité la plus importante d’un test car l’usage auquel un dispositif d’évaluation est destiné doit être la préoccupation première lors de sa conception et de son développement (Bachman & Palmer 1996 : 17). L’usage du test qui est fait par une institution pour évaluer des compétences langagières engage, à un niveau ou à un autre, l’avenir du candidat. Le caractère primordial de l’utilité tient également au fait que cette qualité constitue une métrique qui doit s’appliquer lors de l’évaluation de tous les aspects liés au développement et à l’usage des tests (Bachman & Palmer 1996 : 17). En tant que qualité majeure d’un dispositif d’évaluation des compétences langagières, l’utilité doit servir de base aux contrôles de qualité tout au long du développement d’un test (Bachman & Palmer 1996:17). Un test de bonne qualité doit être efficace, approprié et utile (Brown 2010 : 25).

Selon la position de recherche dominante, les six qualités d’un test doivent être envisagées dans une relation de complémentarité (Bachman & Palmer 1996 : 18 ; Hughes 1989). La relation de complémentarité signifie que l’utilité du

dispositif doit être considérée à partir de la résultante de ces qualités, non de leur superposition : Utilité= Fiabilité + Validité de construit+ Authenticité+ Interactivité+ Impact + Praticité (Bachman & Palmer 1996 : 18). Une telle relation implique que, malgré la tension pouvant exister entre les qualités individuelles, un équilibre optimal doit être trouvé entre celles-ci. Pour parvenir à cet équilibre, il faut prendre en considération l’effet combiné des différentes qualités sur l’utilité d’un test particulier au lieu d’évaluer l’impact individuel de ces qualités sur l’utilité. La recherche d’un équilibre entre les six qualités a pour conséquence qu’on cherche à déterminer leur niveau minimum acceptable. Cela aide à éviter les deux extrêmes possibles qui consistent soit à favoriser quelques-unes de ces six qualités aux dépens des autres, soit à essayer d’atteindre un niveau maximal pour chacune d’entre elles (Bachman & Palmer 1996 : 134).

Trois principes sont à la base de ce modèle d’utilité, qui permettent de l’opérationnaliser lors de la conception et de la passation des tests. Le premier postule qu’il faut maximiser l’utilité globale d’un test et non pas les qualités individuelles. Il en résulte que les qualités individuelles doivent être évaluées au travers de leur effet combiné sur l’utilité globale et non pas indépendamment les unes des autres. Par ailleurs, l’utilité d’un dispositif particulier et l’équilibre entre ses différentes qualités ne peuvent pas être étendues à tous les tests en général. La situation d’évaluation et la démarche d’évaluation doivent être considérées dans leur spécificité (Bachman & Palmer 1996 : 18). Outre son caractère variable, l’appréciation de l’utilité globale d’un dispositif est subjective. Car c’est bien le concepteur qui décide quelles sont les qualités à optimiser dans le test qu’il conçoit. La prise de décision ne dépend donc pas uniquement d’éléments objectivables, comme le type de test et la situation d’évaluation spécifique, mais résulte également d’intuitions et de jugements plus personnels émanant directement du concepteur (Bachman & Palmer 1996:19). Il n’en demeure pas moins qu’un test sera d’autant plus utile qu’il sera développé en tenant compte de son objectif spécifique, du groupe des candidats particuliers à qui on le destine et de la situation spécifique de l’usage de la langue. Dans Bachman & Palmer (1996), un questionnaire permettant d’interroger chaque critère d’utilité d’un test est fourni. Ce questionnaire entend faciliter l’évaluation logique ou

conceptuelle de l’utilité pour aider les concepteurs à créer leurs dispositifs (Bachman & Palmer 1996 : 135).

1.4.2 Praticité

Ce principe concerne les questions logistiques et administratives qui entrent en jeu lors de la conception du dispositif, ou encore lors de l’administration des épreuves et de l’attribution des scores. Il y a plusieurs facteurs qui déterminent le degré de praticité d’un test. Parmi les principaux figurent : le respect des limites budgétaires imposées, l’administration et l’évaluation des passations, la mise à disposition des candidats du temps nécessaire à l’effectuation des tâches, l’énoncé de directives claires, ainsi que l’usage adéquat des ressources humaines et matérielles disponibles (Brown 2010 :26). Les ressources décisives pour évaluer la praticité se subdivisent en trois types : les ressources humaines, les ressources matérielles et le temps nécessaire au développement, jusqu’à la première administration opérationnelle (Bachman & Palmer 1996 : 37). Les coûts associés à chaque type de ressources doivent être calculés au plus près. Il faut souligner que la gestion des ressources disponibles dépasse la seule disponibilité de temps et d’effort nécessaires pour la conception du test ainsi que pour l’attribution des scores. La disponibilité seule ne garantit en rien un usage intelligent des ressources (Brown 2010 : 26). Il faut souligner que les types et l’étendue des ressources requises varient en fonction de la situation d’évaluation (Bachman & Palmer 1996 : 135). En résumé, la praticité est à définir comme la relation entre les ressources requises pour la conception, le développement et l’usage du test, d’une part, et les ressources disponibles pour ces activités, d’autre part (Bachman & Palmer 1996 : 34). On peut représenter cette relation au moyen de la formule suivante :

praticité : ressources disponibles ressources requises

Selon cette formule, le développement et l’usage d’un test sont pratiques si le rapport est supérieur ou égal à 1. Si tel est bien le cas, les ressources requises n’excèdent pas les disponibilités et le dispositif est viable. Dans le cas contraire, lorsque les ressources requises sont supérieures aux ressources disponibles, la

praticité du test doit être remise en cause. Deux options existent alors pour corriger la situation : l’une est de diminuer la part des ressources requises en modifiant les spécifications ; l’autre consiste à augmenter les moyens disponibles ou à les allouer différemment afin d’augmenter leur efficacité (Bachman & Palmer 1996 : 34).

Il résulte de la définition fournie qu’il existe un niveau limite de praticité. Ce niveau constitue dans les faits un niveau minimal acceptable. L’existence d’un niveau limite montre que, contrairement aux cinq autres composantes de l’utilité, la praticité n’est pas une qualité continue. L’impossibilité d’attribuer un degré plus ou moins élevé de praticité constitue un trait distinctif de cette qualité (Bachman & Palmer 1996 : 135). Un deuxième trait distinctif est que la praticité ne se réduit pas à un score, à la différence des cinq autres qualités. La praticité répond essentiellement aux questions : le test peut-il être développé et utilisé? Si oui, sous quelles conditions et de quelle manière (Bachman & Palmer 1996 : 135)?

1.4.3 Fiabilité

La caractéristique principale d’un test fiable est la cohérence de la mesure qu’il permet d’effectuer (Bachman & Palmer 1996 : 19). Cette qualité est extrêmement importante pour l’évaluation à large échelle parce qu’il est connu que toute mesure inclut une marge d’erreur. Par ailleurs, il existe un lien évident entre la fiabilité et la validité d’un test, dans la mesure où la fiabilité est indispensable pour qu’un test soit déclaré valide (Hughes 2003 : 50). La fiabilité est fonction de la cohérence des scores obtenus aux tests et aux tâches des tests différents (Bachman & Palmer 1996 : 20). C’est au prix de cette cohérence que le test sera en mesure de fournir une information valable sur les compétences des candidats (Bachman & Palmer 1996 : 20). Une première façon de concevoir la cohérence est d’imaginer qu’un même test puisse être administré à un même candidat ou à un même groupe plusieurs fois dans le temps et dans l’espace, avec des résultats comparables (à compter que leur niveau n’ait pas eu l’occasion d’évoluer au travers d’un apprentissage et hors effet de tâche). Cette exigence (qui reste largement théorique) implique que le résultat atteint une fois est potentiellement reproductible, toutes choses étant par ailleurs égales :

« Whenever a test is administered, the test user would like some assurance that the results could be replicated if the same individuals were tested again under similar circumstances. » (Crocker & Algina 1986: 105). Une deuxième façon de concevoir la cohérence est l’interchangeabilité : deux formes de test réputées équivalentes doivent fournir des résultats comparables (Bachman & Palmer 1996 : 20).

En dehors de la cohérence des scores, la fiabilité se manifeste par plusieurs autres critères. Les principaux sont la cohérence des conditions d’administration, l’absence d’ambiguïté des tâches, ainsi que la formulation de directives claires et uniformes pour l’attribution et l’évaluation des scores. Au-delà de l’uniformité, les rubriques portant sur l’attribution des scores et l’évaluation des résultats doivent se prêter à une application cohérente lors des différentes administrations du test (Brown 2010 : 27). L’absence d’ambigüité dans les items est primordiale car il y a un lien très net entre le nombre d’items ambigus dans un test et son degré de fiabilité (Alderson, Clapham & Wall 1995 : 87)

Bien que la fiabilité soit une qualité primordiale, il faut reconnaître l’impossibilité d’éliminer complètement les incohérences dans un test. On désigne par incohérence des « changements asystématiques », c’est-à dire, des variations de scores qui ne reflètent pas des variations de niveau de compétence chez les candidats, mais qui dépendent d’autres facteurs, par exemple, des états psychologiques des candidats (Alderson Clapham & Wall 1995: 87). Malgré l’impossibilité d’éliminer complètement ces incohérences, il est souhaitable d’en contrôler les sources potentielles et d’en minimiser les effets (Bachman & Palmer 1996 : 20). Le but de l’évaluation est d’élaborer des tests qui mesurent les changements de niveau de compétences des candidats, non les « changements asystématiques» (Alderson, Clapham & Wall 1995 : 87). Le degré de fiabilité d’un test dépend de la proportion des « changements systématiques » dans le score (Alderson, Clapham & Wall 1995 : 87). Le test est d’autant plus fiable que la proportion de ces derniers est élevée.

Le degré de fiabilité peut être influencé dans un sens ou dans l’autre par les caractéristiques propres au test. Cinq facteurs majeurs ayant un effet significatif sur la cohérence des scores ont été identifiés. Les tâches, d’abord, qui

sont en partie contrôlables. En effet, lors de la conception d’un test, il est possible de réduire l’incohérence en minimisant les variations entre tâches, dès lors que ces variations ne sont pas liées aux usages réels et pluriels de la langue (Bachman & Palmer 1996 : 20). Le deuxième facteur de cohérence est le nombre d’items contenus dans un test. Une augmentation de ce nombre entraîne mécaniquement une augmentation de la cohérence des scores. Cependant, il est important de ne pas inclure un nombre trop élevé d’items car cela peut avoir des effets psychologiques néfastes sur certains candidats et induire, par contrecoup, une moindre fiabilité du test (Brown 2010: 29). Le troisième facteur concerne la variation de la difficulté des items. La difficulté identique des items réputés de même niveau augmente le niveau de fiabilité (Fulcher & Davidson 2010 : 106). En quatrième lieu, il est nécessaire de choisir des sujets hétérogènes lors de la phase de pilotage (Fulcher & Davidson 2010 : 106). Le cinquième facteur de cohérence est le format lui-même du test. Les tests « objectifs » ayant un ensemble de réponses fixes, préparées d’avance, sont réputés posséder une fiabilité plus grande que ceux qui sont « subjectifs » avec leurs réponses ouvertes, appelant un jugement de l’évaluateur (Brown 2010: 29). Cependant, les tests au format QCM, présumés plus « objectifs », requièrent une attention particulière lors de leur conception. Pour assurer une réelle fiabilité à cette « objectivité », il faut veiller à ce que tous les items aient vraiment le même niveau de difficulté, qu’ils soient correctement distribués et que toutes les options proposées à l’intérieur de chaque item aient été élaborées soigneusement (Brown 2010: 29).

Il existe quatre facteurs qui peuvent être à l’origine d’un manque de fiabilité d’un test. Ces facteurs sont liés au candidat, à l’évaluateur, aux procédures d’administration du test ou au test lui-même (Brown 2010 : 27). Ces facteurs ont en commun de modifier le score obtenu pour des raisons autres que la compétence, de sorte que le résultat observé ne correspond pas au véritable score de l’individu (Fulcher & Davidson 2010 : 105). Or, pour pouvoir tirer des conclusions valables sur les compétences d’un candidat, sur la seule base du score obtenu à un test, il faut que ledit score reflète fidèlement ses capacités et performances. Des méthodes numériques ont donc été mises au point pour

calculer l’écart type entre le score obtenu et le score véritable lors des passations différentes (Fulcher & Davidson 2010 : 105).

En ce qui concerne la non-fiabilité imputable au candidat, on constate que ce sont surtout des facteurs physiques ou psychologiques qui interviennent. Bien que ces facteurs puissent paraître au-delà du contrôle des administrateurs et des évaluateurs, il existe des stratégies capables d’en minimiser la cause et l’impact. En effet, ce type de non-fiabilité est souvent lié aux conditions dans lesquelles un test est administré. Or celles-ci ne sont pas irrémédiables. La non-fiabilité liée aux procédures d’administration concerne généralement les conditions matérielles dans lesquelles le test a lieu. Celles-ci incluent tous les aspects susceptibles d’avoir un impact sur la performance des candidats et donc des scores attribués. A l’évidence, de mauvaises conditions de passation ont un effet immédiat sur l’état psychologique des candidats. Ce constat est encore plus évident lorsque les dégradations concernent non seulement le lieu de passation mais les items inclus dans le corps du test (Brown 2010 : 29).

Lorsque le déficit de fiabilité est causé par les évaluateurs, il convient de déterminer si on est en présence d’une ou deux personnes, engagées dans l’attribution de scores incohérents. Dans le premier cas de figure, il s’agit très probablement d’un facteur interne, fréquent dans les tests ne prévoyant pas un ensemble normé de réponses correctes. On ne peut non plus exclure l’inattention, la fatigue, ou encore des biais par rapport à certains candidats dont le correcteur n’est pas forcément conscient. Une autre cause envisageable est le manque de clarté des critères d’attribution des scores (Brown 2010: 28). Lorsqu’il y a deux correcteurs et que des écarts sont constatés, il ne faut pas exclure que l’un d’eux au moins ne respecte pas les critères de notation, manque d’attention ou d’expérience, lorsqu’il ne souffre pas de préjugés à l’encontre de la population testée (Brown 2010 : 28).

Il est très précieux de connaître les sources possibles d’incohérence des scores. En premier lieu, pour tenter de réduire ou de contrôler les facteurs de perturbation de la fiabilité. Mais surtout pour intégrer l’existence d’une marge d’erreur à toute prise de décision fondée sur un score (Fulcher & Davidson 2010 : 114).

1.4.4 Validité

Avant d’être une théorie, la validité est une pratique : tel ou tel dispositif est jugé nationalement ou internationalement probant pour évaluer des connaissances ou des compétences, en vue de prononcer l’admission universitaire ou l’aptitude professionnelle d’un candidat (Chapelle 1999 : 255). Lorsque l’utilisation du dispositif se fait à très large échelle, auprès de publics nécessairement hétérogènes et dispersés, il est nécessaire d’avoir la garantie que le dispositif est bien adapté aux objectifs et aux candidats particuliers concernés (Fulcher & Davidson 2007 : 23). La situation est toutefois différente lorsque le dispositif est destiné à un usage plus restreint et ciblé, comme cela est le cas en situation classe. La méthodologie d’enseignement et les domaines à évaluer sont alors précisés par un manuel ou un programme donnés (Spolsky 1975 : 255).

Mais qu’entend-on exactement par « validité » ? De nos jours, la validité, aux côtés de la fiabilité, est considérée comme l’une des deux qualités principales de tout test réputé efficace (Alderson, Clapham & Wall 1995 : 7). Depuis les travaux de Cronbach & Mehl (1955), les recherches sur la validité sont devenues un axe majeur de l’évaluation langagière, psychologique et éducative (Fulcher & Davidson 2007 : 10). Ce paramètre est en effet aussi complexe qu’essentiel. Dans les années 1970, la validité est assimilée à l’authenticité (Chapelle 1999 : 256). Par exemple, un test de langue, pour être probant, doit permettre de vérifier une compétence effective, qui soit authentiquement exportable en situation réelle. En termes plus généraux, la validité peut être définie comme le degré auquel les conclusions tirées des résultats d’une évaluation sont pertinentes, significatives et utiles à la lumière du but de l’évaluation (Gronlund 1998 : 226). Cette définition souligne que la validité est une propriété étroitement tributaire de l’objectif du test. La notion d’objectif apparaît d’ailleurs dans d’autres définitions de la validité, plus axées sur le processus de mesure.

‘Validity in testing and assessment has traditionally been understood to mean discovering whether a test ‘measures accurately what it is intended to measure’ (Hughes 1989 : 22), or uncovering the ‘appropriateness of a given test or any of its component parts as a measure of what it is purposed to measure’ (Henning 1987 : 170).

S’interroger sur la validité d’un instrument d’évaluation c’est donc déterminer si celui-ci mesure effectivement ce qu’il entend mesurer, autrement dit s’il est en phase avec les objectifs qu’il se donne (Fulcher & Davidson 2007 : 4).

Les principes contenus dans les définitions citées sont résumés par les deux arguments de Cronbach & Mehl (1955) qui n’ont cessé d’exercer une influence sur les chercheurs. Le premier de ces arguments stipule que la définition du construit est centrale dans la conception des tests et l’évaluation des compétences (ibid : 282). Le deuxième argument met l’interprétation des scores obtenus au cœur de toute recherche sur la validité (ibid : 300). La question majeure pour interpréter les scores est donc quelle preuve peut être fournie qui légitime leur interprétation (Fulcher & Davidson 2007 : 10) ? L’enjeu est majeur car il faut rassembler suffisamment de données susceptibles d’être acceptées comme preuves manifestes d’une compétence en langues, par le très large public des formateurs et des utilisateurs. Si les preuves fournies par le test sont convaincantes, alors celles-ci pourront être utilisées pour défendre l’usage du dispositif et l’interprétation qui est faite des scores (Fulcher & Davidson 2007 : 10). Il faut cependant avoir conscience que ce qui possède le statut de preuve à un instant t peut changer avec le temps, si bien que la lecture des scores doit être entendu comme un processus évolutif(Fulcher & Davidson 2007 : 10).

Les définitions de la validité que nous avons citées jusqu’ici énoncent clairement que pour être valable un test doit évaluer exactement les compétences qu’il se donne pour objectif. Cela suppose que soient systématiquement ignorées les autres variables, non pertinentes. Par ailleurs, pour être valable un test doit aussi livrer des informations permettant de tirer des conclusions précises à partir des scores obtenus (Alderson, Clapham & Wall 1995 : 7). Enfin, un test probant doit se fonder sur des données empiriques obtenues au travers de la performance du candidat. Les conclusions que l’on tire de ces données et des scores qui leur sont associés doivent être soutenues par des arguments théoriques (Brown 2010 : 30). En résumé, pour acquérir une validité, un test doit fournir des informations utiles et significatives sur les capacités réelles d’un candidat.

Il est important de souligner que la validité n’est pas une notion absolue, mais un principe qui doit être respecté à des degrés divers: « […] validity is a matter of degree, not all or none.» (Messick 1989 : 33). Traditionnellement, on distingue trois types de validité, liés au types de données récoltées au travers de test : une validité orientée vers l’usage réel de la langue, désigné criterion en

anglais, une validité de contenu et une validité de construit (Chapelle 1999 : 255). Cependant, cette tripartition a été réfutée par Samuel Messick dans son article de 1989 :

Traditional ways of cutting and combining evidence of validity, as we have seen, have led to three major categories of evidence: content-related, criterion-related, and construct related. However, because content-and criterion-related evidence contribute to score meaning, they have come to be recognized as aspects of construct validity. In a sense, then, this leaves only one category, namely, construct-related evidence (Messick 1989: 20).

La dernière phrase montre que Messick ne reconnaît qu’un seul type de preuve pour établir la validité, le construit, qui englobe les autres. La théorie de Messick opère donc l’union de ce que ses prédécesseurs dissociaient. Elle est donc désignée par l’appellation "unified validity framework » (Messick 1989 : 13). Si

Dans le document Dispositifs numériques d'évaluation des compétences en langues vivantes étrangères : concevoir, tester des procédures de positionnement (semi)-automatisées (Page 64-85)