Une littérature abondante sur la pondération

Partie 2 - Revue de littérature

5 Une acception de l’alignement curriculaire nécessairement élargie

5.3 Une littérature abondante sur la pondération

La pondération est une phase importante de toute démarche d’évaluation sommative. Nous la

34 Ce choix s’est imposé à nous car il met en évidence des caractéristiques des tâches évaluatives en rapport avec notre modèle. Cela ne signifie cependant pas qu’une tâche DOIT répondre aux critères de Wiggins pour être alignée curriculairement.

considérerons ici comme l’action qui vise à mettre en évidence le « poids » de l’apprentissage au travers de l’utilisation de deux outils distincts : les points et les critères. Nous commencerons donc cette partie en abordant la littérature qui a documenté leur utilisation respective. Puis, nous documenterons des travaux ayant pensé la question complexe des critères comme étant les seuls outils pour penser la qualité de l’apprentissage au sein d’une cohérence d’alignement curriculaire jusqu’à la notation. De manière à rester cohérents avec nos cadres théoriques, nous avons volontairement écarté de cette recension les travaux inscrits dans l’approche par compétences, cette dernière étant portée par des fondements conceptuels différents des nôtres.

5.3.1 Pondérer des tâches évaluatives, ou la question de « combien ça vaut ? »

Deux champs de recherches proches fournissent des résultats intéressants sur cette problématique : celui du « scoring » ou « marking », traduisant littéralement l’acte de pondérer, et celui du « grading », relatif à la notation³⁵. Ces résultats émanent principalement de travaux anglo-saxons (d’où ces anglicismes), les plus significatifs sur ces questions selon nous. Premier élément intéressant : assigner de la valeur à des tâches ou des items présents dans une épreuve sommative est un prolongement de toute pratique d’évaluation (McMillan & Nash, 2000). Là, la littérature existante se divise en deux catégories principales : celle qui a investigué la pondération au travers de l’utilisation des points, et celle qui l’a étudiée via l’exploitation de critères.

Des recherches montrent d’abord que c’est la première méthode de pondération, au travers de points, qui est la plus répandue dans les pratiques évaluatives (Marzano, 2002). En revanche, les points s’avèrent unanimement trop proches d’une logique de la mesure pour rendre compte d’une qualité, car ils appellent les totaux, les moyennes, les additions, les comptages, les compensations. Cette logique est dès lors décrite par la recherche en évaluation comme difficilement compatible avec l’apprentissage (Brookhart, 2005). Car, d’une part, la mesure a besoin d’un objet physiquement appréhendable, saisissable dans l’espace/temps, et d’autre part, parce qu’elle nécessite une unité de mesure applicable à cet objet qui soit objectivement définissable. Pour cela, l’objet doit être saisi sous une ou plusieurs dimensions, chacune pouvant être pourvue d’une échelle numérique (Hadji, 2012). À ce titre, Cardinet (1990) est

35 Notons que ces termes définissent des pratiques différentes en fonction de leur origine dans le monde scientifique anglo-saxon. Les chercheurs anglais ont tendance à parler de « scoring » pour la pondération et de « marking » pour la notation. Leurs collègues américains ou australiens utilisent « scoring » pour la pondération et « grading » pour la notation. C’est cette seconde option que nous choisissons, au vu des sources retenues.

formel : pour lui, « la mesure n’est pas acceptable en pédagogie » (p. 43), ce que nous approuvons si une des fonctions de l’évaluation sommative est de rendre compte de la qualité de ce qui est évalué dans le but d’opérer des régulations.

Du point de vue de la pratique, Smith, Smith et DeLisi (2001) ont documenté qu’une manière courante de donner des points consiste à déduire des points du maximum prévu en fonction de ce qui sépare la réponse de l’élève de celle qui est attendue. Ce qu’infirme Royce Sadler (2005), lorsqu’il décrit les pratiques de scoring comme étant le fait de compter les réponses correctes de l’élève, et que cet acte s’applique essentiellement aux items ou aux tâches, plutôt qu’aux épreuves dans leur entier. Les deux pratiques de comptage de points coexisteraient donc. Mais, fait plus étrange et interpellant, leur exploitation n’est que rarement pensée en référence aux apprentissages (Stiggins, Frisbie & Griswold, 1989, cité par Zhang & Burry-Stock, 2010, p.

325), mais obéit plutôt à une logique comptable. Marzano (2002) précise même que, bien que communes et intuitives, les erreurs induites par cette pratique n’ont pas fait l’objet d’analyses approfondies dans la recherche récente. De son côté, Dubus (2006), affirme que « la tendance spontanée des participants est de compter un point par item réussi, de les additionner de manière à fabriquer une note sur 10, puisqu’il y a 10 items » (p. 63). Il montre qu’un tel système, proche d’une forme de bon sens, est peu cohérent. Il se justifie en avançant qu’une telle manière de procéder, qui offre « 252 façons d’obtenir un score de 5 points sur 10 » (p. 65), devient très discutable, puisqu’elle met l’accent sur une opération mathématique au détriment d’une réflexion sur l’apprentissage. Outre cet arbitraire, et à l’instar de Biggs (2003), il dénonce également les phénomènes de compensation de points, d’univocité de la valeur attribuée aux apprentissages. Ce dernier auteur va encore plus loin lorsqu’il affirme que ces pratiques de pondération traduisent les croyances particulières chez l’enseignant³⁶, à savoir :

- La connaissance est une somme d’unités ; - Chaque unité en vaut une autre ;

- Elles peuvent s’additionner, se compenser ;

- Peu importe ce qui est correct, pourvu qu’il y en ait assez ; - Ces unités sont les devises absolues des échelles ;

- L’évaluation est scientifique, précise, objective ; - La distribution des acquis détermine les résultats.

36 C’est dans un sens générique que Biggs utilise ce terme de croyance, nous le reprenons tel quel.

En lien avec ces croyances, Biggs documente l’existence de procédures spécifiques, assimilables à autant de pratiques évaluatives :

- Une telle manière de pondérer s’effectue en comptant les erreurs ; - Les tâches évaluatives se compensent ;

- L’évaluation est séparée de l’enseignement ;

- Les conditions d’évaluation sont très bureaucratiques (épreuves communes, échéances, notes punitives, pas de seconde chance) ;

- Les tâches d’évaluation sont décontextualisées;

- La notation est normative.

Enfin, du point de vue des messages donnés aux élèves, le plus souvent implicites, il mentionne les aspects suivants :

- Toutes les idées se valent;

- « L’arbre est plus important que le bois »³⁷, à savoir que la forme est plus importante que le fond ;

- La restitution est valorisée ;

- Des facteurs incontrôlables, comme la chance, jouent un rôle important dans l’évaluation ;

- L’évaluation est de la seule responsabilité de l’enseignant ; - L’auto-évaluation n’a aucune importance.

Comme le montre le chercheur, il est intéressant de noter que tous ces éléments s’inscrivent dans le paradigme de la mesure (De Ketele, 2012), ou measure model (Brookhart, 2005) sur lequel nous reviendrons plus loin. En effet, nous y retrouvons la place privilégiée accordée au point comme seul outil standardisé de la pondération. Par ailleurs, l’apprentissage y est considéré comme un objet physiquement appréhendable. Dans cette perspective, l’important pour l’évalué n’est pas d’être performant sur des aspects-clés de l’épreuve, mais d’engranger un maximum de scores, peu importe où. Nous sommes bien loin d’une évaluation de l’apprentissage.

Cela dit, l’usage de points n’est pas frontalement condamné. Et c’est là que certaines sources consultées relèvent la complexité de la pondération. Des travaux ayant approfondi la question comme ceux de Royce Sadler (2005), bien qu’orientés vers une recherche de qualité dans

37 « Trees are more important than wood » (p.4).

l’évaluation des apprentissages, pensent possible le fait d’apparier des points à des critères. Il s’agira donc, dans notre cadre conceptuel, de donner à voir nos choix en matière de système de pondération critérié, pour qu’il soit le plus possible en lien avec une recherche de cohérence d’alignement curriculaire élargi.

Quoi qu’il en soit, la majorité des sources consultées qui ont étudié spécifiquement les pratiques de pondération critiquent avec véhémence le fait de formuler des scores dans des tâches évaluatives uniquement au travers de points. Elles prônent toutes le recours à des critères qualitatifs, dans une perspective critériée, jusqu’à, pour les plus « extrêmes », l’abandon pur et simple des points.

5.3.2 Pondérer des tâches évaluatives, ou la question de « qu’est-ce que cela vaut ? » La littérature sur l’évaluation critériée est, quant à elle, très abondante. Elle s’est développée dans le monde scientifique autour des années 70, avec la remise en question des perspectives normatives et l’émergence de la pédagogie par objectifs. Elle a pris de l’ampleur et gagné en validité conceptuelle conjointement au développement de l’approche par compétences, celle-ci étant soucieuse de décrire au mieux les ressources exploitées par l’élève dans la situation d’évaluation. Toutefois, ses limites ont été rapidement identifiées, au sein de grilles souvent touffues et peu situées théoriquement : découpage des habiletés cognitives mises en œuvre, absence de contenus, et surtout, problèmes insurmontables à pondérer des critères et à élaborer une note au regard de la grille³⁸. Pourtant, quel que soit le champ auquel appartiennent les chercheurs, la littérature consultée sur le sujet est unanime : l’évaluation critériée est l’unique méthode pour exprimer la qualité de l’apprentissage relativement à sa complexité et à son contenu d’une part (e. g., Jonsson et Svingby, 2007 ; Royce Sadler, 2009), et pour élaborer une note référée à l’apprentissage d’autre part (e. g., Biggs & Tang, 2011 ; Brookhart, 2017 ; Walvoord & Johnson Anderson, 2009). Mais un problème de taille est apparu : une difficulté à formuler une définition consensuelle du critère. Là, nous observons dans les textes consultés qu’il est parfois critère de réalisation, parfois de production, minimal ou de perfectionnement (Dubus, 2006) ; parfois macro, parfois synonyme de l’objectif. Certes, des compromis existent, notamment sur le fait que les critères doivent être « pertinents, indépendants, pondérés et peu nombreux » (Gerard, 2009, p. 77), mais la manière dont cette pertinence, par exemple, est

38 Pour une critique constructive de l’évaluation des compétences, le lecteur se référera à la fin de cette partie et aux ouvrages qui s’y rapportent.

définie, ne fait pas toujours l’unanimité. Deux consensus émergent quand même à ce sujet des sources non exhaustives consultées : l’évaluation critériée permet d’évaluer les apprentissages de l’élève en référence à des objectifs et non en comparaison avec ses pairs, et elle offre à l’élève l’opportunité de se projeter dans l’apprentissage en le rendant visible dès le début d’une séquence (Andrade, 2005 ; Royce Sadler, 2005). Il ressort par ailleurs de ces travaux un constat fort intéressant pour notre problématique : le recours à des critères pousse les enseignants à décrire le niveau de complexité de connaissance attendu au travers de la situation d’évaluation (Marzano, 2002). Cela ne les empêche pas d’apparier ensuite à chaque critère un certain nombre de points, mais ces points seront attribués de façon plus « alignée », puisqu’en rapport avec les apprentissages.

5.3.3 Des enjeux relatifs aux critères analytiques

Cette méthode se rapproche de ce que certains chercheurs appellent une démarche d’« analytic grading » (Royce Sadler, 2009, p. 3), fréquemment utilisée dans les pratiques et souvent décrite comme très efficace, où les critères, concrets, débouchent relativement aisément sur une note.

Elle constitue une première étape vers une évaluation qualitative car elle offre, selon le chercheur, des pistes de réflexion pour mieux assigner des points en fonction de la valeur de l’apprentissage évalué : « Of particular interest is the convention of assigning weights to items»

(p. 265). Ces apports significatifs pour notre problématique sont soulignés par d’autres chercheurs. Par exemple, pour Laveault et Miles (2008), toute approche qui rend les critères d’évaluation plus spécifiques, moins ambigus, donc plus univoques, permet notamment le recours à des échelles descriptives qui participent à la construction d’une note centrée sur l’apprentissage, donc à dominante qualitative. Mais elle est également critiquée par d’autres auteurs, notamment lorsque les critères peuvent se compenser parce qu’ils font chacun l’objet d’une attribution de points qui débouche sur un total (e.g., Biggs, 2003, 2010). Nous sommes donc dans une approche qui réalise un premier pas vers une cohérence d’alignement curriculaire élargi, mais qui comporte tout de même quelques points délicats. Nous y reviendrons dans notre cadre conceptuel.

5.3.4 Des enjeux relatifs aux critères holistiques

L’approche analytique de la pondération est donc un premier pas, mais elle demeure incomplète. Biggs (2003) lui oppose une approche critériée et de notation plus ample, qu’il nomme, avec d’autres, « holistic grading » (Isenhour & Kramlich, 2008 ; Royce Sadler, 2009),

au cœur de laquelle intervient le jugement professionnel de l’enseignant. Ce dernier construit ici progressivement des critères plus globaux, renvoyant à la complexité de l’apprentissage, en rapport avec la démarche d’apprentissage de l’élève, référés aux objectifs, englobant tous les aspects évalués. Nous développerons également de manière approfondie cette perspective holistique de la pondération dans notre cadre conceptuel, ainsi que le rôle qu’y joue le jugement professionnel. Toutefois, il est encore ici important de souligner plusieurs de ses points saillants mis en évidence dans la littérature consultée.

Tout d’abord, la méthode ainsi construite vise à permettre des adaptations permanentes, soutenir l’apprentissage et aboutir aussi à une note référée à l’apprentissage. On pourrait alors imaginer, comme Royce Sadler (2009), que la démarche holistique prévaut sur l’analytique.

Mais ses constats sont plus nuancés. En effet, la validité des deux dépend de facteurs contextuels (le type d’élèves, les modalités d’enseignement, les contraintes), et elle peut être plus ou moins élevée de part et d’autre. Car il existe chez l’enseignant une idée préexistante d’un « bon » travail qui conditionne l’évaluation, quelle que soit l’approche choisie. Ensuite, un élément déterminant réside également dans le choix et la formulation des critères, qui ont un impact considérable sur le sens donné à l’évaluation : sur quelles bases l’enseignant formule-t-il des critères suffisamment généraux pour mettre en évidence la complexité de l’apprentissage évalué, mais également référés aux contenus pour éviter des biais de jugement ? Enfin, Royce Sadler toujours situe la complexité du jugement professionnel au cœur du processus de traitement des critères à visée de notation. L’évaluation ne se résume pas ici à une opération de mesure, ou à un jugement dont les bases seraient uniquement ancrées sur l’expériences ou le sens commun, mais bien un processus de prise de décision, chaque fois spécifique et référé théoriquement (Klenowski & Wyatt-Smith, 2014). Nous serons amené à approfondir cette question, notamment en convoquant des recherches sur le jugement professionnel. Mais nous observons que la cohérence curriculaire au travers d’une évaluation critériée est bien présente ici.

Dans une revue de littérature conséquente sur le sujet, Jonsson et Svingby (2007) appuient ce constat, et montrent que de nombreux travaux documentent l’impact positif que des critères, qu’ils soient analytiques ou holistiques, ont sur la cohérence de l’alignement curriculaire : clarification du contrat d’évaluation, explicitation des attendus, possibilité de régulations (Denner, Salzman, Harris, 2002). Mais ces constats demandent, selon Jonsson (2014), à être nuancés. En effet, s’il s’avère acquis que tout critère devrait être aligné avec des contenus de la

tâche évaluative, il manque des résultats de recherches sur l’impact que leur nature a réellement sur cette cohérence (Panadero & Jonsson, 2013). Car il ne suffit pas de formuler des critères, même alignés, pour que de facto, les performances des élèves s’améliorent. L’enjeu de l’approche critériée, communément admis dans les sources consultées, n’est donc ni plus ni moins ici de rendre visible l’apprentissage. Il y a dès lors une nécessité, d’un point de vue de recherche, à investiguer la nature et le rôle des critères comme des éléments fondamentaux d’une cohérence d’alignement curriculaire élargi. C’est un des enjeux que nous tenterons de relever également dans notre cadre conceptuel.

Un élément ressort enfin de toutes ces recherches : l’approche par critères qualitatifs entretient un rapport étroit avec la validité de l’évaluation sommative. Nous aborderons cette problématique plus loin. Il est pertinent, pour le moment, de terminer l’étude de nos sources relativement à l’alignement curriculaire élargi en traitant des travaux sur la notation.

Dans le document Le modèle de l'alignement curriculaire élargi pour étudier les pratiques évaluatives sommatives d'enseignants de mathématiques et de français du secondaire: enjeux conceptuels et pragmatiques (Page 58-65)