Divergences d’interprétation des critères entre enseignants

Cette première analyse vise un double objectif. Nous nous appuyons sur les évaluations des trois copies communes transmises dans le sondage 2 pour, d’une part, pouvoir prendre en compte l’effet enseignant dans l’évaluation des copies d’élèves et, d’autre part, savoir si certains critères d’évaluation amènent à davantage de divergence d’interprétation entre enseignants que d’autres.

Nous cherchons à nous assurer que les enseignants ont des pratiques d’évaluation assez homogènes pour justifier la poursuite de nos analyses.

Dans l’analyse des compétences des élèves proposée dans la partie B. Chapitre IV. 3, nous souhaitons prendre en compte l’influence du facteur enseignant sur la note attribuée à la production de l’élève. Nous souhaitons ainsi analyser les résultats qui seraient ceux des élèves si tous les enseignants évaluaient de la même manière. Dit autrement, nous souhaitons nous approcher du cas où les productions seraient toutes évaluées par un même évaluateur, qui évaluerait comme la moyenne des enseignants de notre étude.

Pour mesurer cet effet enseignant, nous comparons les résultats attribués par un enseignant aux trois copies communes par rapport à la moyenne des notes attribuées par l’ensemble des enseignants. Nous calculons ainsi pour chaque enseignant, la différence entre la somme des critères qu’il a validés pour les trois copies communes et la somme moyenne des critères validés pour ces trois copies par l’ensemble des enseignants. Nous disons alors qu’un enseignant a tendance à sur noter lorsque cette différence est positive. Nous parlons de sous notation dans le cas contraire. Précisons que nous parlons de tendance car nous nous basons sur une moyenne, et que chez un certain nombre d’enseignants, on mesure tantôt un écart positif sur une copie, tantôt un écart négatif sur une autre. Ce que nous prenons comme indicateur est donc

160 l’écart moyen. On peut par exemple mesurer pour un enseignant, un écart de -2 points sur l’évaluation de la première copie par rapport à l’évaluation moyenne des enseignants (12 points pour l’enseignant, 14 points en moyenne), un écart de +3 sur la deuxième copie (11 et 8) et un écart de +3 points sur la dernière copie (12 et 9). Dans ce cas-là, nous considérons que cet enseignant note en moyenne 4 points de plus que la moyenne, sur 45 points évalués, c’est-à-dire qu’il obtient ⁴

3 de points de plus par copie. Nous considérons alors qu’il sur note.

Nous avons envisagé deux manières de prendre en compte cet écart à la moyenne. Tout d’abord en procédant de manière additive. Il s’agit de compenser l’effet enseignant en ajoutant (dans le cas où l’enseignant sous note) ou enlevant (dans le cas où il sur note) l’équivalent du nombre de points obtenus à partir de l’évaluation des copies communes de manière égale entre les différents critères. Pour reprendre notre exemple précédent, pour l’enseignant ayant tendance à sur noter, en moyenne de ⁴₃ points sur une copie, nous enlevons ₄₅⁴ points à chacun des quinze critères évalués, pour chaque élève. Ainsi un élève évalué par cet enseignant obtiendrait − ₄₅⁴ pour les critères non validés et 1 − ⁴

45 pour les critères validés. Cependant, cette méthode amène à une augmentation/diminution de la note moyenne, identique pour chacun des critères, et ne nous permet donc pas de voir comment chacun des critères est impacté par cet effet enseignant.

La deuxième manière de procéder consiste à appliquer un coefficient multiplicateur aux notes mises par l’enseignant aux productions de ses élèves. Nous calculons ce coefficient multiplicateur en faisant le rapport entre la somme moyenne des critères validés pour les trois copies communes par l’ensemble des enseignants et la somme des critères validés par l’enseignant pour ces trois copies. Pour reprendre notre exemple précédent, l’enseignant ayant tendance à sur noter, avec une note totale des trois copies communes évaluées de 35 points, contre 31 points pour la moyenne des enseignants, nous multiplions chaque critère évalué par ³¹

35, et ce, pour chaque élève évalué par cet enseignant. Ainsi un élève obtiendrait alors 0 pour les critères non validés et ³¹

35 pour les critères validés.

Par ailleurs, pour savoir si certains critères de la grille amènent à plus de divergences que d’autres, nous calculons, pour chaque critère et chaque production, le pourcentage d’enseignants qui ont validé le critère. Nous regardons ensuite si les moyennes sont proches de 0% ou 100%, ou bien proches de 50%. En effet, si le pourcentage d’enseignants qui ont validé le critère approche 100%, cela signifie que les enseignants ont très majoritairement validé la maîtrise de ce critère. A l’inverse si le pourcentage s’établit autour de 0%, cela signifie que les enseignants ont très majoritairement invalidé la maîtrise de ce critère. Dans les deux cas, les enseignants partagent, dans l’ensemble, le même avis quant à la validation du critère. Par contre, les pourcentages

proches de 50% traduisent une divergence des interprétations puisque cela signifie qu’il y a presque autant d’enseignants qui ont validé la maîtrise du critère que d’enseignants qui ne l’ont pas validé. Nous considérons qu’un pourcentage de validation compris entre 20% et 80% traduit des différences d’interprétation significatives car alors au moins une personne sur cinq en moyenne ne partage pas l’avis des autres. Nous rappelons que 46 enseignants ont répondu à ce sondage.

Les différences observées peuvent selon nous se justifier selon trois axes non exclusifs.

Soit c’est l’interprétation du critère qui amène à des divergences entre enseignants : le critère n’est pas bien défini, pas bien formulé et les enseignants ne lui donnent pas la même signification.

Soit c’est l’interprétation de la production de l’élève qui amène à des divergences : les enseignants n’interprètent pas de la même manière les éléments présents dans la production de l’élève. Soit, enfin, les différences s’expliquent par le fait que le critère en jeu est problématique en lui-même, car complexe à évaluer. Bien que consciente que nous ne pouvons pas déterminer de manière absolue l’origine des divergences observées, nous pensons qu’une analyse des productions d’élèves évaluées peut nous permettre d’identifier a priori des critères susceptibles d’amener à des divergences relativement à une production donnée. Nous analysons ainsi dans la suite les divergences observées en tenant compte de ces éléments identifiés a priori.

Afin de pouvoir interpréter les divergences observées, nous analysons donc tout d’abord les trois productions d’élèves que nous avons données à évaluer aux enseignants.

En préambule à cette analyse, revenons sur le choix des copies. A la suite de la lecture des 74 productions d’élèves reçues, nous avons défini des critères pour les analyser et choisir celles à proposer aux enseignants. Nous souhaitions en effet sélectionner des productions qui, tout en étant représentatives du travail des élèves, puissent amener à des discussions quant aux critères d’évaluation proposés dans la grille. Nous avons pour cela jugé plus efficace de synthétiser chaque production d’élève en fonction d’un nombre restreint de caractéristiques que nous considérions comme pertinentes au vu des travaux reçus, que de remplir pour chacun des élèves la grille d’évaluation que les enseignants allaient utiliser par la suite. Nous avons ainsi caractérisé chaque production reçue en fonction de ses qualités narratives, de la méthode de résolution mise en œuvre, de la justesse des résultats obtenus, d’une réponse apportée à chacun des cas, de la présence d’une preuve et de la présence d’une formule sous forme d’expression algébrique. Nous synthétisons dans le tableau ci-dessous (Tableau 8) les caractéristiques des trois productions

162 d’élèves retenues (Annexe 5, Annexe 6, Annexe 7), selon ces critères qui nous ont guidés dans notre choix.

Tableau 8. Synthèse des caractéristiques des producti ons d’élèves sélectionnées.

Cette synthèse illustre la diversité des productions à évaluer. Si nous nous référons aux critères de la grille d’évaluation que les enseignants doivent utiliser et aux caractéristiques de ces trois

productions, nous pouvons en particulier anticiper des divergences d’interprétation en ce qui concerne :

- Les critères de « Narr. Complète » et « Narr. Pertinente » pour l’élève 2 puisque sa narration ne relate pas complètement sa recherche, et que, même si tous les étapes de sa narration sont présentes, elles ne sont pas présentées chronologiquement.

- Le critère « Rech. Explication conjecture » pour l’élève 2 puisque malgré la mise en exergue des régularités lui ayant permis d’aboutir à la formule algébrique, un saut apparait dans le récit de son raisonnement.

- Le critère « Rech. Conjecture valide » pour les élèves 1 et 3. Concernant l’élève 1, la méthode de résolution mise en œuvre lui permet de calculer le nombre de cartes nécessaires mais elle n’aboutit pas à une formule générale. Concernant l’élève 3, l’erreur commise sur un exemple générique (cas de 7 étages), et qui impacte tous les résultats proposés, peut être considérée ou non comme non significative.

- Le critère « Rech. Preuve » pour l’élève 2 car il tente de justifier « pourquoi cette formule fonctionne ? » en s’appuyant sur les résultats obtenus pour les cinq premières valeurs, mais sans que la référence à la formule testée soit explicite.

Nous présentons ci-dessous une synthèse, pour chacune des trois productions, des pourcentages d’enseignants qui ont validé les critères (Tableau 9).

Notons tout d’abord que six critères n’amènent pas à des désaccords significatifs (en bleu dans le tableau) et que trois autres ne font apparaître des désaccords que pour une des productions (en vert dans le tableau). Nous avons choisi de ne retenir aucun de ces 9 critères pour l’analyse de ceux amenant à des divergences significatives. En ce sens, les dimensions

« présentation » et « modélisation » sont très consensuelles. La dimension « technique » conduit elle aussi à peu de divergences globales. Parmi les critères en lien avec la dimension « narration », comme anticipé, le critère de complétude (Narr. Complète) amène à des désaccords pour la production de l’élève 2, mais encore davantage pour celle de l’élève 1, ce que nous n’avions pas anticipé a priori dans l’analyse de la production. Ce critère semble donc amener à des divergences importantes d’interprétation, ce qui n’est pas le cas des deux autres critères en lien avec la narration. Plusieurs critères de la dimension « recherche » (Rech. Explication conjecture ; Rech.

Conjecture valide ; Rech. Preuve ; Rech. Conclusion conjecture) amènent à des désaccords importants sur au moins deux des productions d’élèves. Nous avions anticipé les divergences concernant le critère « Rech. Conjecture valide ».

164

Dimension Critères Élève 1 Élève 2 Élève 3

Présentation La présentation est soignée 98% 95% 98%

Narration Le texte est compréhensible. 93% 85% 90%

Modélisation L’élève s’est approprié le problème : reformulation, traduction en langage mathématique, schématisation, etc.

85% 85% 85%

Les outils, concepts mathématiques et stratégies utilisés sont pertinents.

80% 85% 85%

Recherche Une méthode de résolution est mise en œuvre, des pistes de résolution sont dégagées.

88% 95% 95%

Les essais sont cohérents avec le problème et visent à faire ressortir les régularités. L’absence d’essais n’est pas pénalisée, si une conjecture valide a été trouvée et testée.

73% 83% 73%

Les éléments qui ont permis d’énoncer chaque conjecture sont identifiables ; en particulier, s’il y en a, le lien avec les essais est exprimé.

58% 55% 90%

Une conjecture valide ou un nombre suffisant de conjectures non valides, est énoncée.

50% 87% 60%

Toute conjecture est testée et la démarche aboutit, soit à une preuve, soit à un contre-exemple, soit à des tests suffisamment nombreux et variés.

25% 55% 8%

Chaque conjecture fait l’objet d’une conclusion cohérente avec la démarche décrite au point

Technique Les outils et concepts mathématiques sont utilisés correctement

80% 87% 78%

Les codes, notations, symboles utilisés, qui ne font pas partie du problème, sont définis.

67% 95% 85%

Tableau 9. Pourcentage d’enseignants qui ont validé les critères pour chacune des trois productions proposées.

Nous n’avions cependant pas anticipé celles relatives aux critères « Rech. Explication conjecture » et « Rech. Preuve », concernant la production de l’élève 1. Enfin le critère « Rech. Conclusion conjecture » amène à des divergences significatives relativement à toutes les productions évaluées. En somme, nous voyons que peu de critères amènent à des divergences que nous n’avions pas anticipées. La dimension « recherche » est assurément celle qui conduit au plus de désaccord. Le seul autre critère amenant à des différences significatives est le critère de complétude de la narration (Narr. Complète).

Cette première étude met en exergue la faible variabilité inter-enseignant dans l’évaluation, puisque seuls quelques critères amènent à des divergences significatives lors de l’évaluation des mêmes copies par les enseignants. Cette cohérence nous invite à poursuivre nos analyses.

En outre, l’analyse de l’effet enseignant montre que les enseignants attribuent jusqu’à 9 points en moins et 4.4 points en plus à une même copie évaluée sur 15 points. Cependant, ces cas extrêmes restent très marginaux. L’écart type moyen des notes attribuées à chacune des trois copies est de 2.4. Ceci vient conforter l’idée d’une assez faible variabilité inter-enseignante quant à l’évaluation de copies communes.

Les différences observées dans l’évaluation des productions communes nous conduisent à nous demander si ces différences sont dues à la formulation des critères, à la construction même de la grille, ou bien si elles traduisent des difficultés réelles des enseignants à travailler ces éléments. Nous faisons l’hypothèse que même si ces critères amènent, de par leur formulation ou leur place dans la grille, à des divergences d’interprétation entre enseignants, cela traduit aussi une difficulté réelle à enseigner et évaluer ces aspects complexes de la résolution de problèmes.

Ces divergences nous semblent pouvoir s’expliquer par la complexité des notions en jeu. Cela nous invite à être attentive à ces éléments lors de nos analyses à venir des séances de classe. Nous nous intéressons maintenant à l’organisation des critères dans la grille.

Dans le document Étude des pratiques évaluatives des enseignants dans le cadre d'un enseignement centré sur la résolution de problèmes en mathématiques (Page 160-166)