Concepts définitoires fondamentaux en évaluation

CHAPITRE V — Vérification de la fiabilité du système d’évaluation prototypique semi-

4.1 Concepts définitoires fondamentaux en évaluation

Dans son étude sur l’évaluation, Tardieu (2013 : 248) rappelle les définitions qu’en donne De Ketele : « [...] évaluer c'est confronter un ensemble d'informations à un ensemble de critères (référentiel) en vue de prendre une décision (De Ketele, 1980) ». Tardieu remarque alors que cette évaluation « implique une prise de décision qui échappe au sujet évalué ». Elle note aussi que selon Gardner (1996 : 114), « Évaluer, c’est recueillir des données sur les compétences et les potentiels des individus dans le double objectif de leur en faire retour utilement et de procurer des informations indispensables à la communauté environnante ». Cette seconde définition établit deux destinataires des informations obtenues via l’évaluation.

Qu’elle prenne la forme de tests, de certifications, d’examens ou de contrôles, l’évaluation repose sur trois concepts fondamentaux qui sont la validité, la fidélité (aussi dénommée fiabilité) et la faisabilité. Horner (2010 : 17) ajoute deux autres concepts à cette liste pour évaluer la performance : l’objectivité et l’équité. Reprenons les définitions attribuées à ces notions.

La validité (validity) : « Une activité d’évaluation est valide lorsqu’elle mesure exclusivement et exactement ce qu’elle est censée mesurer. » (Horner, 2010 : 17). Ce qui est effectivement évalué est le construct10. Ce modèle de la compétence évaluée doit être défini clairement et précisément. Il vise les connaissances nécessaires et leur mise en œuvre dans un contexte donné à travers un fonctionnement cognitif (Horner, 2010 : 17). L’Association des

évaluateurs de langue en Europe (ALTE, 2011 : 14) précise que le degré de validité dépend en

outre de la manière dont le test est utilisé : si l’accent est mis sur les compétences en langue ou bien sur les comportements sociaux dans le cas des évaluations liées au CECRL. Elle préconise les étapes suivantes en se basant sur les travaux de Kane, Crooks et Cohen (1999) et de Bachman (2005) pour vérifier la validité du processus de la construction du test jusqu’à la vérification de l’aptitude du candidat dans sa vie personnelle ou professionnelle.

10_{Selon ALTE (2011 : 82) : Le construct se définit : A hypothetical or mental TRAIT which cannot necessarily} be directly observed or measured, for example, in language testing, listening ability.

Figure 5 – Raisonnement séquentiel dans une démarche validante selon ALTE, adapté à partir des travaux de Kane, Crooks et Cohen 1999, et Bachman 2005 (2011 : 15)

Le succès des diverses étapes conditionne la validité de l’ensemble (ALTE 2011 : 15). La première phase se concentre sur l’interprétation d’un échantillon de réalisation basé sur un exemple représentatif de ce que l’apprenant a réalisé dans la compétence. L’élaboration du barème qui s’ensuit concerne la phase 2. L’étape 3 considère la généralisation des résultats numériques obtenus à d’autres situations et aborde le domaine de la fiabilité (voir ci-dessous). La phase quatre consiste en l’extrapolation de l’évaluation de la performance au monde extérieur au test en le transposant sous la forme de compétences traduites par I can ... . Dans la phase 5, le candidat peut alors être profilé en conséquence.

La fidélité (reliability), aussi appelée fiabilité, est « l’assurance que les résultats obtenus restent toujours stables et constants quelles que soient les conditions de passation et de correction. Une évaluation est fidèle si l’on peut se fier aux résultats obtenus, soit de classement (les sujets se retrouvent toujours classés dans le même ordre) soit de niveau (les sujets sont toujours placés au même niveau de compétence : par exemple, A2 ou B1 sur l’échelle du Cadre européen commun de référence en langues, ou CECRL). C’est cette fiabilité qui nous permet d’avoir confiance en l’exactitude des résultats de l’évaluation. » (Horner, 2010 : 18). Pour obtenir la fiabilité de ses résultats et atteindre une norme requise, il est donc nécessaire de standardiser tous les procédures de l’évaluation, notamment l’objectivité des corolaires et la clarté des grilles évaluatives. Pour les concepteurs de tests, l’objectif recherché est d’obtenir le plus haut degré de validité et de fiabilité. Il est ordinairement souhaitable que deux tests évaluant le même construct soient corrélés par « validité convergente ». ALTE (2011 : 16) assimile reliability, consistency et dependability, et précise que la fiabilité d’un test n’implique ni une qualité satisfaisante du test ni la validité de l’interprétation donnée à ses résultats. La variabilité des divers résultats obtenus, ou error, provient des facteurs représentés dans la figure ci-dessous, other signifiant que ces facteurs sont hors contrôle. Quelle que soit son origine, le degré de ce taux d’erreur présent dans tout

test évaluatif doit être réduit au maximum pour que les résultats obtenus soient attribuables au degré de compétence du candidat et non à des facteurs différents. Les efforts dans ce sens porteront essentiellement sur le degré d’erreur provenant des évaluateurs et des diverses versions du test.

Figure 6 – Quelque sources d’erreur dans un score évaluatif (ALTE, 2011 : 16)

L’objectivité est définie comme « la qualité d’une évaluation qui fait que les résultats obtenus par un sujet donné seront constants quel que soit l’examinateur. » (Horner, 2010 : 21). Ce critère de fidélité est essentiel pour l’évaluation de la performance. On a vu précédemment que ALTE (2011 : 16) incluait le critère d’objectivité dans la notion de fiabilité du test.

L’équité (fairness) permet d’éviter toute contestation en n’établissant aucune différence de traitement entre les candidats au test (Horner, 2010 : 21). Le partenariat croissant entre les institutions et les créateurs de certifications encourage le respect de « codes de bonne conduite » (Codes of Practice, Codes of Fairness) (ALTE, 211 : 17).

Une notion reste fondamentale : la faisabilité (practicality ou feasability). La procédure d’évaluation doit être « pratique à organiser, administrer et corriger » (Horner, 2010 : 22).

À part ces notions générales sur les critères qui définissent la nature et la qualité de toute évaluation, d’autres, plus spécifiques, sont néanmoins centrales pour cerner le sujet de cette thèse.

A brief description accompanying a band on a rating scale, which summarises the degree of proficiency or type of performance expected for a test taker to achieve that particular score.

Le CECRL (2001) utilise abondamment cette notion, par exemple sous la forme de can do, et Horner (2010 : 80-81) clarifie la distinction entre « descripteur de compétence » et « critère de mise en œuvre d’un descripteur » :

Un descripteur décrit ou définit un niveau de compétence (A1, A2, B1, B2...) ; un critère est la mise en œuvre d’un descripteur dans une situation d’évaluation. Ainsi, il se peut que l’on soit obligé de modifier le descripteur afin de le rendre opérationnel.

Ainsi, trouver les descripteurs pertinents, révélateurs, est une première étape avant de pouvoir les rendre opérationnels sur le plan évaluatif sous la forme de critères distinctifs. Dans leur

Dictionnaire pratique du CECR, Robert et Rosen (2010 : 80-81) citent les préconisations de

Tagliante (2005 : 47) en matière de descripteurs : « un bon descripteur doit :

 être formulé de façon positive [...] ;

 être précis et décrire explicitement la capacité attendue [...] ;

 être clair, c’est-à-dire rédigé sans métalangue linguistique, de façon à être compris par tous, enseignants et apprenants ;

 être bref, c’est-à-dire ne décrire que l’essentiel ;

 être indépendant, ne pas dépendre d’un ou plusieurs autres descripteurs ». Horner mentionne la difficulté à rédiger des descripteurs de niveau ou de compétence (2010 : 92) :

Il faut, à la fois, identifier la ou les composantes à évaluer, décrire une performance possible au niveau requis, permettre une notation à l’intérieur de ce niveau afin de différencier les élèves, et être clair, précis et succinct, tout en créant des descripteurs pratiques lesquels permettent de différencier non seulement entre élèves et niveaux mais aussi entre compétences.

En effet, la tâche de dégager des descripteurs étalonnés est ardue, et de distinguer des niveaux plus fins ou étroits l’est encore davantage. C’est pourquoi Horner (2010 : 97) recommande d’adapter des descripteurs existants soit en en combinant plusieurs, soit en en fractionnant d’autres.

Un trait distinctif ou discriminant (criterial feature) : c’est un critère évaluatif, qu’on obtient par conversion d’un descripteur opérationnel. On trouve aussi dans la littérature l’expression « trait critérié » ou « trait critérisé ». Cette notion se base sur le pouvoir qu’a un élément de discriminer des niveaux chez les candidats (ALTE, 2011 : 82). C’est à partir de ce critère distinctif que peut être créée une grille de notation (Horner, 2010 : 118), laquelle indique des franchissements de seuil d’un niveau à un autre. C’est Hawkins et Buttery (2010) qui ont proposé le « concept de trait critérié » comme indicateur de maîtrise d’une langue étrangère ou seconde. Selon eux, certaines propriétés linguistiques caractérisent et identifient chaque niveau de compétence d’une L2 et c’est ce qui permet aux examinateurs d’évaluer instinctivement leurs candidats avec précision. Ce concept de trait critérié repose sur un défi fondamental : identifier des propriétés distinctives. Il se décline en quatre types selon ses propriétés positives ou négatives. Les propriétés positives d’un trait distinctif dépendent de deux aspects : d’une part, le fait que ses propriétés linguistiques soient conformes à la grammaire et qu’il soit utilisé par les natifs de la langue, et d’autre part, la fréquence avec laquelle le non natif réalise ce trait dans sa production. Un trait distinctif négatif n’est pas généré par la grammaire de la langue (les locuteurs natifs le jugent mal formé) et la fréquence de ces « erreurs » doit être réduites. Ainsi, le travail de l’apprenant est d’accumuler les traits positifs pour se rapprocher des réalisations du natif, alors qu’il lui faudra au contraire réduire les traits négatifs puisqu’ils l’éloignent des réalisations natives.

L’effet de retour (washback effect ou backwash effect voire instructional value) : c’est l’impact ou l’influence des pratiques évaluatives (tests, examens ou autres évaluations) sur tous les individus impliqués dans le processus d’enseignement ou d’apprentissage. Qu’elles soient positives ou négatives, ces conséquences, en rapport avec la valeur sociale du phénomène évaluatif, sont largement reconnues (Bailey, 1999). Elle précise que pour certains, il constitue un critère à part entière de la valeur d’une évaluation.

Ces quelques concepts définitoires établissent des bases pour la présentation de la suite.

Dans le document Elaboration de critères prosodiques pour une évaluation semi-automatique des apprenants francophones de l'anglais (Page 56-60)