Conception et usage des évaluations de masse

Chapitre 2. Comment évaluer l’éducation?

1. La volonté de mesurer un produit éducatif et ses effets normatifs

1.2. Les tests et l’opérationnalisation de la mesure

1.2.1. Conception et usage des évaluations de masse

Les évaluations dites de masse se mettent en place en France de façon régulière à la fin des années 1980. Elles sont motivées par une volonté d’objectivation externe des performances des élèves²⁵, notamment dans les périodes de la scolarité où il n’y a pas d’examen. On peut y voir une méthode pour aider les enseignants, tout en souhaitant les encadrer. On peut y voir aussi une tentative de faire entrer dans la culture des enseignants et personnels d’éducation, la « culture de l’évaluation », pour reprendre le mot de Thélot (1994).

Le dispositif est composé par des évaluations dites “ diagnostiques ” qui ont lieu tous les ans en début d’année scolaire et par les évaluations “ bilans ” qui n’ont pas une périodicité régulière et peuvent évaluer autre chose que les connaissances, en particulier le domaine des attitudes et comportements.

Les évaluations diagnostiques s’opèrent à l’entrée en CE2 et en sixième depuis 1989, à l’entrée en seconde de 1992 à 2002. En CE2, sixième et seconde, les résultats sont totalisés tous les ans sur un échantillon représentatif de sorte à avoir des résultats nationaux qui sont publiés sous forme papier pour le CE2 et la sixième. A ces niveaux on dispose tant d’une connaissance locale des acquis individuels des élèves que de repères nationaux.

Qu’elles soient “ diagnostique ” ou “ bilan ”, les évaluations de masse ont comme

caractéristique commune de se fonder sur les résultats des élèves à une épreuve effectuée ponctuellement sur le temps scolaire. Ces épreuves sont obligatoires, mais elles n’ont pas de conséquences réglementées sur le destin scolaire des élèves. Elles prennent la forme de cahiers d’exercices identiques sur tout le territoire national et sont effectuées en classe, sous la conduite du maître qui reçoit des consignes très précises pour la passation.

Les cahiers sont fabriqués à la Direction de l’Evaluation et de la Prospective (DEP) du Ministère de l’Education nationale. La conception de ces épreuves allie une filiation

25. De nombreux travaux des années 1980 dénoncent les « biais » de l’évaluation, l’extériorité de ces évaluations étant supposé les rendre moins biaisées en garantissant une plus grande objectivité.

statistique et pédagogique car une collaboration s’instaure entre des statisticiens issus de l’INSEE, rompus aux techniques de production de chiffres représentatifs, et des pédagogues, psychopédagogues, psychométriciens et gens de terrain soucieux d’efficacité pédagogique. Le terme de “ compétences ”, adopté par les seconds, sert à cerner ce qu’on veut mesurer, la qualité de la mesure étant alors cherchée dans celle de la collecte et des techniques statistiques plus que dans la réflexion sur l’objet même de la mesure obscurément désigné par le terme de « compétences ».

Les exercices sont construits pour évaluer des compétences au sein de “ champs

disciplinaires ”. Pratiquement on part des programmes d’enseignement et des objectifs et compétences qui y sont répertoriés. Les thèmes des exercices correspondent aux programmes de la classe antérieure suivie par les élèves pour les évaluations diagnostiques, de la classe qui s’achève pour les évaluations bilans. Les épreuves sont corrigées par le maître de la classe à l’école, le professeur de la matière au collège et au lycée, puis ces corrections sont codées par eux et saisies sur ordinateur. Cette procédure permet d’assurer conjointement le traitement local et la remontée des données vers la Direction de l’évaluation. Chaque professeur peut ainsi obtenir un bilan par élève et une totalisation pour la classe, et par champ, que ce soit par compétence ou pour un ensemble de compétences²⁶ . Des données pour l’établissement sont aussi accessibles, de même que des résultats plus larges peuvent être établis à l’initiative des responsables locaux. Enfin, des données nationales sont publiées à partir du traitement d’un échantillon de ces résultats.

Les évaluations bilans sont, elles aussi, fabriquées à partir des programmes nationaux, le choix des champs d’interrogation est variable bien que dominent très largement les évaluations portant sur le français et les mathématiques. Cependant, dans l’idéal, l’épreuve n’est pas construite tout à fait dans le même esprit pour faire un bilan et pour faire un diagnostic. Pour le bilan, on imagine des exercices évaluant ce qui est acquis par les élèves en fin d’une période significative par exemple en cinquième²⁷ ou à la fin du collège²⁸, alors que les évaluations diagnostiques s’inscrivent en début de cycle. Pour opérer le diagnostic, on cherche à tester les difficultés rencontrées dans le cours des apprentissages et non un état des connaissances solidement installées. Les épreuves diagnostiques ont un caractère plus analytique que les évaluations bilans. Ces dernières ont pour but unique de connaître un état

26. Un logiciel est mis à leur disposition à cet effet. 27. Evaluations bilan de 1982 et 1988.

du système, elles ne sont pas faites directement pour aider à l’enseignement, leurs résultats ne sont pas adressés au niveau local.

Les évaluations internationales sont des bilans d’une forme particulière puisque les épreuves ne peuvent pas être absolument calquées sur les programmes nationaux. Les dernières en date faites dans le cadre OCDE, PISA (Programme international pour le suivi des acquis des élèves), évaluent les élèves de 15 ans (OCDE 2001 ; OCDE 2003). Ces évaluations

« s’intéressent beaucoup plus aux compétences mobilisant des connaissances qu’aux

connaissances elles-mêmes. (…) Priorité est donnée à l’aptitude à mettre en œuvre un certain nombre de processus fondamentaux dans des situations très diverses, généralement différentes des situations scolaires, en s’appuyant sur la compréhension globale de concepts clés plutôt que sur l’accumulation de connaissances spécifiques »²⁹. Les cahiers d’épreuves sont mis au point par une collaboration d’une trentaine de pays. Une bonne partie des items est d’origine anglo-saxonne. Trois domaines dit « champs³⁰ » sont testés : la compréhension de l’écrit, sur laquelle a particulièrement porté l’évaluation de 2000, la culture mathématique, cible de l’évaluation 2003, et la culture scientifique. En compréhension de l’écrit on distingue trois sortes de compétences : s’informer, réagir, interpréter. Cependant, dans chaque champ et sur chaque grande « compétence » des scores sont calculés, les pays sont classés selon la moyenne des scores obtenus et jugés selon la moyenne et la dispersion des scores. On se fonde, ici aussi, sur la mesurabilité supposée des acquis des élèves conceptualisés en termes de compétences.

Aujourd’hui en France, les évaluations bilans disparaissent au profit des évaluations internationales. Quant aux évaluations diagnostiques, qui sont annuelles, elles sont également utilisées pour mesurer un niveau, comme des bilans. Elles ont donc un double usage³¹, ce qui obscurcit leur visée d’aide pédagogique. Deux logiques sont en effet à l’oeuvre, la logique d’une évaluation purement diagnostique et locale destinée aux enseignants, aux élèves, aux familles, impulsée par ceux qui cherchent une efficacité pédagogique, un soutien à l’action située des enseignants avec les élèves dans une meilleure connaissance de l’état cognitif de

29. Note d’Information, 01-52 décembre, Ministère de l’éducation nationale, p.1.

30. Le terme désigne un ensemble de compétences. Mais cet ensemble n’est pas très délimité. Par exemple dans les évaluations CE2-sixième, en Français, on sépare le « savoir lire » et le « savoir écrire » et puis on distingue trois « champs » : compréhension, outils de la langue et production de texte. Ces champs sont ensuite découpés en quatre grandes compétences, elles-mêmes parfois subdivisées.

31. La lecture de la presse syndicale sur ce thème entre 1989 et 1998 (Chatel 2005 Vol.I, p.653) montre la prégnance d’une lecture en termes de bilan.

chaque enfant et la logique de l’évaluation nationale d’un état du système, logique d’une évaluation en surplomb, conforme aux façons de penser familières à l’économiste. Ces deux logiques, se fondent sur le présupposé d’une mesurabilité de l’état cognitif des élèves fondé sur la notion de compétences.

Dans le document L'évaluation de l'éducation et l'enjeu des savoirs (Page 64-67)