• Aucun résultat trouvé

analyse des résultats du test de

Exercice 10 Grammaire de texte : interprétation et construction des anaphores

4.2.1 Vision générale des résultats au test : une population continue

Avant de présenter les résultats au test, il convient de faire une remarque préalable sur les données que nous avons saisies. Nous avons assez fréquemment rencontré – trop en tout cas pour que le phénomène soit négligeable315 – des écarts entre la note affichée au test et la moyenne des points obtenus à chaque exercice. La note au test est pourtant calculée à partir de la somme des points obtenus dans tout le test, rapportée sur 20 (chacun des 10 exercices vaut 10 points). Ce décalage s’explique donc par des erreurs de calcul des correcteurs : en comptant tous les points obtenus, ils en ont oublié, ou en ont trop mis. Cela pose une question importante : doit-on considérer la note que l’étudiant a obtenue, ou bien la note qu’il aurait dû obtenir ? Nous avons choisi de tenir compte de ces erreurs dans nos calculs : nous utiliserons non pas les notes que les étudiants ont effectivement obtenues, mais les notes qu’ils auraient obtenues si l’on avait correctement additionné leurs résultats à chacun des exercices.

Néanmoins, on ne peut tenir compte d’un second type d’erreurs d’évaluation que nous avons pu relever dans certaines copies. Elles concernent le calcul des points à l’intérieur de chaque exercice, que nous n’avons pas systématiquement vérifié (sauf pour les 110 copies de notre corpus réduit). Nous considérerons que ces écarts restent négligeables. D’ailleurs, dans notre corpus réduit, ils se sont avérés beaucoup plus rares que les erreurs concernant la note totale.

Enfin, nous avons pu constater que les notes n’étaient pas toujours une indication très fiable à cause de certaines variations dans l’évaluation. Dans l’exercice VII par exemple, il fallait corriger la phrase 8 : « il y a une alternative : soit passer par la côte, soit prendre le train », dans laquelle figurent deux erreurs. Quand une seule des deux

314 La docimologie est l’« étude systématique des méthodes d'évaluation en éducation, et notamment des facteurs

déterminant la notation aux examens » (Le Petit Larousse 2003, version CD-Rom).

315 Cela concerne 113 personnes, soit 13,7% de l’ensemble de notre corpus. Pour 75,2% d’entre eux, cela

correspond à un écart avantageux ou désavantageux de 0,1 à 0,4 point de leur note sur 20 (bornes comprises), soit respectivement 24,8% et 50,4% des 113 étudiants concernés. Pour 11,5% des 113 étudiants (soit 13 étudiants), cet écart est de 0,5 à 0,9 point sur 20 (bornes comprises), pour l’essentiel à leur désavantage. Pour 14,1% des 113 étudiants (soit 16 étudiants) cet écart est d’un point ou plus, pour l’essentiel encore à leur désavantage.

avait été corrigée par l’étudiant, les correcteurs316 ont attribué soit un demi point, soit aucun. Mais c’est dans l’exercice 10 que ces cas sont les plus fréquents : une même réponse peut selon les correcteurs être notée 0, 0,5 ou 1 point. Ces variations se répercutent nécessairement sur la note à chacun des exercices, et sur la note au test. Toutefois, notre lecture systématique du corpus nous incite à penser que ces variations restent négligeables par rapport aux écarts que nous observerons entre les résultats. Par ailleurs, nous serions bien embarrassée d’avoir à choisir la note à mettre dans les exemples que nous venons de citer : en dehors des consignes explicites données pendant l’évaluation, les correcteurs avaient pour certaines questions une marge de liberté. Nous ne tiendrons donc pas ici de ces variations. Notons néanmoins que nous les exploiterons dans l’analyse de notre corpus réduit (dans le chapitre 5), dans la mesure où elles sont aussi le signe d’une variation au sein du groupe des correcteurs.

Ces limites étant posées, nous pouvons regarder les résultats du test, que nous présentons dans les figures 1 et 2. La figure 1 répartit les étudiants en fonction de leur note au test, où en abscisse nous avons indiqué les notes et en ordonnée le nombre d’étudiants qui les ont obtenues. La figure 2 présente les mêmes données, mais nous avons regroupé les notes afin de réduire la dispersion des résultats de la courbe précédente.

Figure 1 Répartition des étudiants en fonction de leur note au test (N=821)

316 Nous en reparlerons ensuite dans notre texte, mais il convient de préciser ici que les correcteurs étaient des

étudiants préparant le CAPES. Ils corrigeaient tous ensemble à la faculté, en suivant les consignes d’un des enseignants responsables du test et de la remédiation.

0 5 10 15 20 25 30 3,2 4,9 5,4 5,8 6,1 6,5 6,8 7,2 7,6 8 8,4 8,7 8,9 9,2 9,5 9,9 10,2 10,4 10,7 11 11,4 11,8 12,1 12,5 12,8 13,1 13,5 13,9 14,4

Note des étudiants au test (sur 20)

N o m b re d tu d ia n ts

Figure 2 Répartition des étudiants en fonction de leur note au test ; les notes sont regroupées (N= 821)

Il apparaît dans ces figures que la distribution des résultats suit une allure de gaussienne. Cette allure est intéressante parce qu’elle correspond à une loi statistique : la loi normale. Pour Blöss et Grossetti317, « la loi normale (…) est souvent utilisée pour donner un contenu mathématique à la notion de hasard ». Elle correspond plus précisément à la représentation des résultats d’une somme de tirages aléatoires indépendants lorsqu’il y a un nombre fini de catégories – ici, les catégories sont les notes, qui sont bien en nombre fini ; lorsque le nombre de catégories est infini, nous avons alors une courbe de Gauss. Ces auteurs ajoutent qu’elle sert à évaluer : « les erreurs de calcul, les erreurs de tir, les écarts par rapport à des valeurs attendues sous l’influence d’un grand nombre de facteurs aléatoires, non liés les uns aux autres, l’action de chacun étant restreinte ».

Ainsi, si nous vérifions que cette courbe a bien des caractéristiques fortes de la loi normale, alors nous montrerons que finalement, en termes statistiques, répondre à un test de ce type revient à viser une cible au tir à l’arc, ou à mesurer n fois une même table au double décimètre. Il s’agit là bien entendu d’une analogie de phénomènes

statistiques, et non de phénomènes réels, qui nous sert à décrire nos résultats. Nous verrons qu’elle nous permettra certaines conclusions docimologiques. Cette

317 Blöss Thierry, Grossetti Michel, 1999, Introduction aux méthodes statistiques en sociologie, PUF, Paris, p.38.

1 2 2 6 12 20 34 37 50 56 96 86 82 84 71 4448 35 24 14 8 6 2 1 0 20 40 60 80 100 120 3 à 3,5 4 à 4,4 4,5 à 4,9 5 à 5,4 5,5 à 5,9 6 à 6,4 6,5 à 6,9 7 à 7,4 7,5 à 7,9 8 à 8,4 8,5 à 8,9 9 à 9,4 9,5 à 9,9 10 à 10,4 10,5 à 10,9 11 à 11,4 11,5 à 11,9 12 à 12,4 12,4 à 12,9 13 à 13,4 13,4 à 13,9 14 à 14,4 14,5 à 14,9 15,5 à 15,9

Notes des étudiants au test, regroupées par classes

N o m b re d tu d ia n ts

vérification consistera pour nous318 à regarder si notre courbe a des propriétés comparables à celles d’une loi normale, à savoir :

− que la distribution est à peu près symétrique par rapport à la moyenne M : la moyenne étant de 9,54, nous avons comptabilisé 404 copies au dessus (49,21%), et 417 copies au dessous (50,79%).

− que dans une loi normale 95% des données doivent être comprises entre [M-1,96 écart-type (σ)] et [M+1,96 écart type (σ)]319.

L’écart type σ de cette distribution (avec des notes non regroupées bien sûr) étant de 1,908 et la moyenne M de 9,543 nous obtenons :

Valeur théorique Valeur réelle Nombre de notes entre [-1,96 écart-type σ] et [+1,96

écart type σ] soit entre 5,80 et 13,28 779,95 (95%) 779 (94,88%)

Les valeurs sont ici extrêmement proches. Nous avons néanmoins voulu compléter ce calcul en utilisant d’autres références320, qui indiquent des pourcentages plus complets : 68,27% des éléments doivent se situer entre [M-1σ] et [M+1σ] ; 95,45% des éléments doivent se situer entre [M-2σ] et [M+2σ] ; 99,73% des éléments doivent se situer entre [M-3σ] et [M+3σ].

Valeur théorique Valeur réelle Nombre de notes entre [-1σ] et [+1σ] soit entre 7,63

et 11,45 560,5 (68,27%) 552 (67,24%)

Nombre de notes entre [-2σ] et [+2σ] soit entre 5,73

et 13,36 783,6 (95,45%) 786 (95,73%)

Nombre de notes entre [- 3σ] et [+3σ] soit entre 3,82

et 15,27 818,8 (99,73%) 819 (99,76%)

Si les résultats sont un peu moins proches pour les deux premiers cas, ils continuent d’indiquer très nettement que la courbe de nos résultats généraux a des caractéristiques très proches de celles de la loi normale.

Il nous reste à interpréter cette particularité de la distribution de nos résultats. Ce qu’elle indique, c’est que si nous avions tiré à pile ou face la note à chaque phrase, et que nous avions calculé la somme des points obtenus, nous aurions obtenu quasiment la même distribution de résultats. Mais il ne s’agit là que d’une analogie de distributions de résultats, qui ne signifie en aucun cas que répondre à chaque question du test équivaut à jouer à pile ou face. Il n’en reste pas moins que cette analogie nous indique que chacune des questions au test sont en partie indépendantes. De ce point de vue de test est donc bien conçu, puisqu’il ne vise pas à évaluer plusieurs fois la même

318 Nous soulignons ici l’importance de « pour nous », étant donné que nous n’avons jamais rencontré de

démarches de ce type. Toutefois, pour en assurer la faisabilité et la pertinence, nous avons vérifié cette démarche avec un expert en mathématiques.

319 Blöss et Grossetti, op. cit., p.39.

compétence, mais bien un ensemble de compétences ponctuelles en partie indépendantes les unes des autres.

En d’autres termes, ce qui explique la distribution en loi normale des résultats, c’est que la note totale au test est la somme – ou la moyenne, cela revient au même – des notes à chaque phrase. En effet plus on teste les étudiants, et plus on teste d’étudiants, plus ils ont de chances que leur note soit proche d’une moyenne321. Chaque note gomme ainsi les différences entre les étudiants : deux étudiants peuvent avoir la même note et pourtant des compétences très différentes. C’est donc le mode d’évaluation qui produit cette distribution de notes, et cette image de l’hétérogénéité des étudiants : les évaluations sommatives donnent une vision de l’hétérogénéité des compétences à partir d’une moyenne des stigmates.

Mais ce qui nous semble également intéressant ici, c’est la régularité quasi-parfaite de notre courbe de résultats, qui renvoie l’image d’une population parfaitement continue, avec en son centre les étudiants qui ont obtenu la moyenne – le fait qu’elle soit ici de 9,54 et non de 10 ne change pas l’interprétation. Ces étudiants « visés » par le test – comme une cible que l’on viserait avec une flèche – sont ceux qui ont réussi la moitié des questions, dont les défauts se trouvent compensés par autant de qualités. Parmi eux il existe très certainement une forte hétérogénéité, puisque tous les cas de figure sont possibles pour avoir la moyenne au test – avoir par exemple la moitié des points à chaque exercice, ou avoir réussi parfaitement 5 exercices sur 10. L’objet du test n’est pas toutefois d’évaluer cette hétérogénéité, mais bien d’évaluer les étudiants à partir d’un ensemble de compétences diverses et indépendantes. Les étudiants ne sont donc pas jugés sur leur niveau de compétence dans chacun des domaines interrogés, mais sur la moyenne de leurs compétences dans l’ensemble du test. Si la stratification des notes n’est pas ici le reflet fidèle de la stratification des compétences c’est parce que les habiletés diverses qui sont évaluées sont (plus ou moins) indépendantes322. La régularité de la courbe et sa symétrie autour de la moyenne théorique indique que les concepteurs du test ont particulièrement bien anticipé la moyenne des compétences des étudiants.

L’intérêt de notre corpus est qu’il nous a permis étant donné son volume de vérifier que la diversité des notes ne correspond pas tant à une réalité sociolinguistique qu’à un choix docimologique : nous avons une distribution de sommes d’évaluations de compétences et non une distribution de compétences. L’image que le test donne de la diversité des pratiques des étudiants est donc celle d’une diversité « continue » et

321 Remarquons pourtant que d’autres types d’exercices, comme les dissertations, mènent souvent à ce type de

courbe de résultats. Il nous semble qu’alors, ce qui produit cette distribution de notes, c’est que les copies sont évaluées les unes par rapport aux autres, et avec toujours à l’esprit du correcteur son échelle de notation et sa moyenne (au moins la moyenne « théorique », mais aussi éventuellement la moyenne propre à l’exercice ou à la discipline : ici 8/20 c’est très bien là 12/20 est une mauvaise note). Ce n’est plus une loi statistique dans ce cas qui produit cette image de l’hétérogénéité, mais c’est la vision scolaire que l’on se fait de l’hétérogénéité et le mode d’évaluation (en termes docimologiques).

orientée sur un seul axe. Il semble qu’il n’y ait pas de « rupture » entre les étudiants. Tout semble indiquer dans cette courbe que la diversité des étudiants peut être réduite à une variété graduelle, où chaque étudiant n’est quasiment pas différent de l’étudiant qui a une note tout juste supérieure, ou tout juste inférieure. Cette image très régulière et harmonieuse de l’hétérogénéité des étudiants, mais que nous savons produite par le mode d’évaluation, doit être comparée à l’image que chacun des exercices donne de la diversité des pratiques étudiantes. En effet, la pondération de l’hétérogénéité (somme des notes) peut aplanir des différences, réduire des écarts. C’est ce que nous allons voir maintenant en comparant les résultats à chacun des exercices.

Ce qui nous intéresse également dans ce passage de l’analyse des notes au test à l’analyse des notes à chacun des exercices, c’est que si l’on peut reprocher au test de faire une moyenne à partir de compétences plus ou moins indépendantes, on peut moins le faire pour chaque exercice : ils sont tous plus ou moins « étiquetés » par un type de compétence (conjugaison, vocabulaire, grammaire de texte…). Seuls les exercices 2, 3 et 9, divisés chacun en deux parties, sont plus difficiles à classer. Nous en ferons d’ailleurs une analyse particulière, en prenant en compte chacune des sous- parties. Nous pouvons donc partir avec l’idée que les compétences testées à l’intérieur de chaque exercice sont a priori moins indépendantes que les compétences testées à l’ensemble du test.