• Aucun résultat trouvé

analyse des résultats du test de

Exercice 10 Grammaire de texte : interprétation et construction des anaphores

4.2.2 Comparaison des résultats aux exercices du test

Dans cette partie, nous commencerons par comparer les images que chacun des exercices donne de l’hétérogénéité. Nous mènerons une comparaison « visuelle » des courbes de résultats, de leurs distributions. En utilisant ensuite des tests statistiques, nous compléterons ces résultats et déterminerons quels exercices sont significativement mieux ou moins bien réussis que les autres. Nous distinguerons à l’issue de ces deux approches les exercices les plus « discriminants », qui dessinent le plus de différences, et les exercices les plus « homogénéisants ». Nous en déduirons les compétences linguistiques les plus sélectives, et celles qui font le moins de différences entre les étudiants.

4.2.2.1 Analyse « visuelle » des courbes

La figure 3 présente les résultats obtenus à chacun des dix exercices du test d’entrée. En abscisse figurent les notes obtenues (sur 10), et en ordonnée le nombre d’étudiants correspondant.

322 C’est d’ailleurs une des raisons pour lesquelles la remédiation comme nous le verrons ne fonctionne pas : la

Figure 3 Résultats obtenus à chacun des exercices du test

Figure 4 Résultats des étudiants aux exercices 1, 2, 3, 4, 5, 7, 8323, 9 et 10, sans

demi-points

323et * Les effectifs observés pour l’exercice 8 sont divisés par 2 dans cette figure, pour permettre la comparaison

avec les effectifs observés dans les autres exercices. Remarquons en outre le fait que les notes 1/10, 3/10, 5/10, 7/10 et 9/10 ne sont jamais possibles à cet exercice. C’est ce qui explique que le logiciel n’a pas tracé la courbe entre les points de la figure.

0 100 200 300 400 500 600 700 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10

Note des étudiants à chacun des exercices

N o m b re d tu d ia n ts

exercice 1 exercice 2 exercice 3 exercice 4 exercice 5 exercice 6 exercice 7 exercice 8 exercice 9 exercice 10

0 50 100 150 200 250 0 1 2 3 4 5 6 7 8 9 10

Note des étudiants (sur 10)

N o m b re d tu d ia n ts

exercice 1 exercice 2 exercice 3 exercice 4 exercice 5 exercice 7 exercice 8* exercice 9 exercice 10

La figure 3 tout d’abord nous permet plusieurs constats. Tout d’abord l’exercice 6 apparaît comme un exercice très atypique. 620 étudiants sur un total de 821 ont en effet obtenu 0 à cet exercice. Nous verrons que ce résultat s’explique par une non compréhension de la consigne. La seconde remarque que cette figure nous suggère, c’est que les demi-points « parasitent » en quelque sorte nos distributions. Dans les exercices 7 et 10 par exemple ils ont été souvent donnés, mais jamais dans l’exercice 8. Dans les figures suivantes, nous avons donc choisi de regrouper les demi-points avec la note supérieure. Enfin, les résultats obtenus à l’exercice 8 méritent également d’être commentés et corrigés : chaque question étant sur 2 points, les effectifs observés dans cette figure doivent être divisés par deux pour être comparés aux autres.

Ces remarques étant posées, nous pouvons commencer la comparaison des courbes de résultats entre elles. Pour le moment, nous nous intéresserons seulement à leur « allure », à l’image qu’ils donnent de la diversité des étudiants. Pour le moment aussi, nous mettrons de côté les résultats de l’exercice 6.

La figure 4 représente donc la répartition des étudiants selon leurs résultats à chacun des exercices du test, excepté l’exercice 6. En abscisse nous avons indiqué les notes des étudiants à chacun des exercices (sur 10), et en ordonnée nous avons indiqué les effectifs d’étudiants correspondants. Les demi-points ont été regroupés avec les notes supérieures, et les effectifs observés à l’exercice 8 ont été divisés par deux. Notre idée, à partir de cette figure, est de comparer les courbes aux différents exercices. Dans l’ensemble, elles apparaissent toutes d’allure plus ou moins gaussienne. Cela nous amène à réfuter en partie notre hypothèse selon laquelle à l’intérieur de chaque exercice les compétences testées par chaque phrase sont moins indépendantes.

En dehors de leur allure générale, les distributions présentent néanmoins certaines différences d’allure qu’il convient de commenter. Pour cette description, nous tiendrons compte de plusieurs éléments. Tout d’abord, nous regarderons la position de la courbe par rapport à la moyenne « théorique ». Cela nous permettra de déterminer si chaque exercice fait apparaître dans l’ensemble les étudiants avec davantage de qualités que de défauts, ou davantage de défauts que de qualités. Ensuite nous regarderons les sommets des courbes, et commenterons le fait que certains sont plus « arrondis » ou « étalés », et que d’autres sont plus « pointus » ou « étroits »324. Cela nous permettra de conclure quant à la plus ou moins grande marginalité des étudiants dont les notes sont à chacune des extrémités de l’échelle. Enfin, nous évaluerons l’importance des « ruptures de pente » dans les courbes, en comparant les plus grands écarts entre deux points dans chaque courbe. Cela nous permettra de conclure quant à l’image plus ou moins continue que l’exercice donne de la population étudiante.

Si l’on considère la position du sommet de la courbe par rapport à la moyenne théorique, il apparaît que la distribution de l’exercice 9 est nettement décalée sur la

gauche, vers les notes les plus faibles, et que la distribution de l’exercice 10 est à l’inverse nettement décalée vers la droite. Ainsi dans l’ensemble l’exercice 9 a permis de repérer une majorité d’étudiants qui ont davantage mal répondu que bien répondu, et l’exercice 10 des étudiants qui ont dans l’ensemble plus souvent bien répondu. Si l’on considère que le test a pour objectif de « viser » des étudiants qui ont autant de qualités que de défauts, dans les deux cas nous pouvons dire que le « tir » est mal ajusté : l’exercice 9 a permis de repérer surtout des incompétences, et l’exercice 10 des compétences.

Si l’on regarde les autres courbes, nous pouvons remarquer d’abord que les résultats des exercices 2 et 3 sont parfaitement centrés autour de la moyenne théorique. Ces deux exercices permettent donc parfaitement de repérer les étudiants dont les incompétences se trouvent compensées par autant de qualités. La distribution des résultats à l’exercice 5 est quant à elle légèrement décalée sur la gauche, et les distributions des résultats des exercices 1, 4, 7 et 8 sont légèrement décalées sur la droite. Cela ne permet toutefois aucune conclusion intéressante pour ces cinq derniers exercices.

Si l’on considère ensuite l’allure du sommet des distributions, il apparaît que les sommets des distributions de l’exercice 1 et de l’exercice 7 sont moins étalés que les autres. Il faut en conclure que pour ces exercices, les résultats des étudiants sont moins regroupés autour du sommet, que chaque point obtenu à l’exercice marque une plus grande différence d’effectifs entre les étudiants. Dans le même temps, les étudiants qui ont obtenu des notes aux extrémités de l’échelle de notation se distinguent moins des autres étudiants. A l’opposé, les sommets des distributions des exercices 2, 3, 5 et 8 sont plus étalés, et indiquent que la majorité des étudiants se concentre autour des étudiants qui ont obtenu la moyenne. Il faut conclure que les étudiants dont les notes se situent aux extrémités de l’échelle se trouvent plus marginaux, parce que ce sont de plus grands écarts d’effectifs qui les sépare des étudiants qui ont obtenu des notes autour de la moyenne (la « pente » de la courbe est plus raide). Pour les distributions des exercices 9 et 10, l’analyse est plus complexe : les courbes, étant donné leur position par rapport à l’échelle de notation ne peuvent qu’être asymétriques.

Enfin, nous pouvons comparer ces distributions en fonction de leur « régularité ». Pour cela, nous avons relevé les plus grands écarts d’effectifs entre deux notes consécutives. Cela nous permet de repérer les plus grandes « ruptures de pente ». Nous ne conserverons pour l’analyse que les résultats les plus intéressants. Le plus grand écart d’effectifs rencontré concerne l’exercice 10, et distingue les étudiants qui ont obtenu 6 points (ils sont 109) et ceux qui en ont obtenu 7 (ils sont 188). Il nous semble donc que cet exercice permet de révéler une discontinuité dans la population 324 Notons que cela revient à commenter des différences d’écart-type.

étudiante : passer de 6/10 à 7/10 à cet exercice est un « pas » plus grand à faire que de passer de 5/10 à 6/10 ; c’est une frontière plus difficile à franchir.

Parmi les autres écarts d’effectifs importants, notons pour l’exercice 4 celui entre les étudiants qui ont obtenu 3 points (ils sont 53) et ceux qui ont obtenu 4 points (ils sont 125), qui indique qu’il existe là aussi un « pas » plus grand à franchir. Pour l’exercice 1 l’écart le plus grand est entre les étudiants qui ont obtenu 6 et 7, et entre les étudiants qui ont obtenu 7 et 8 ; pour l’exercice 2 il est entre les étudiants qui ont obtenu 7 points et ceux qui en ont obtenu 8 ; pour l’exercice 5 il est entre ceux qui en ont obtenu 2 et ceux qui en ont obtenu 3325.

En résumé, la description des courbes de résultats à chacun des exercices nous permet de repérer quelques particularités des exercices proposés dans le test.

La distribution des résultats à l’exercice 1 sur les conjugaisons tout d’abord indique que les compétences testées sont indépendantes les unes des autres : la courbe a une allure gaussienne. La distribution des résultats est par ailleurs assez « pointue » par rapport aux autres exercices, ce qui indique une plus grande dispersion des étudiants sur l’échelle de notation. Chaque différence de note à l’exercice marque enfin une distance régulière entre les étudiants.

La distribution des résultats à l’exercice 2 sur les conjugaisons, les constructions hypothétiques et les constructions interrogatives indique également que les compétences testées par cet exercice sont indépendantes. A l’inverse de l’exercice précédent la distribution est en outre plus « arrondie ». Cela indique qu’une grande majorité des étudiants a obtenu des notes autour de la moyenne, et que les étudiants qui ont moins de 3 points ou plus de 7 points sont en comparaison plus marginaux. La courbe de l’exercice 3 est à nouveau d’allure gaussienne, même si elle est moins régulière que les précédentes. Nous verrons que cette irrégularité s’explique en réalité par les différences entre les distributions de résultats à chacune des deux parties de l’exercice. Pour cette raison, nous ne commenterons pas ici davantage la distribution des résultats à cet exercice.

La distribution des résultats à l’exercice 4 concernant l’accord des participes passés permet quasiment les mêmes conclusions que celles de l’exercice 2 : les compétences testées sont indépendantes, et la courbe est « arrondie ». La seule différence, c’est que pour cet exercice, la distribution est légèrement décalée à droite de la moyenne « théorique » au test : les étudiants ont donc dans l’ensemble mieux réussi cet exercice. La distribution de l’exercice 5 concernant les corrections de maladresses stylistiques a elle aussi la même allure gaussienne et arrondie. A l’opposé de l’exercice 4 toutefois, elle est décalée vers la gauche, ce qui indique que dans l’ensemble, les étudiants ont montré davantage de difficultés que de compétences.

325 Nous avons ici aussi volontairement mis de côté les exercices 9 et 10 dont les courbes sont trop peu

L’exercice 6 concernant la ponctuation est nous l’avons dit le plus atypique : les trois quarts des étudiants ont obtenu 0 à l’exercice. La figure 5 présente les résultats obtenus par les étudiants à cet exercice, et illustre bien l’atypie de cette distribution. Comme pour les figures précédentes, nous avons indiqué en abscisse les notes obtenues à l’exercice, et en ordonnée le nombre d’étudiants correspondant. Encore une fois, nous avons regroupé les rares cas où les notes obtenues contenaient des demi-points avec la note supérieure.

Figure 5 Résultats à l’exercice 6, le plus atypique

Si l’on regarde de plus près les réponses à cet exercice, il apparaît que ces résultats ne peuvent s’expliquer par des incompétences en matière de ponctuation. L’exercice est en effet beaucoup plus difficile et arbitraire qu’il n’y paraît. Il s’agissait de ponctuer un texte sans aucun signe de ponctuation, en indiquant les signes de ponctuation à proprement parler mais aussi les majuscules, les sauts à la ligne, le soulignement des titres de livres, etc. Les étudiants ont souvent indiqué seulement les signes de ponctuation. En outre, les correcteurs requerraient un texte très ponctué, avec des propositions mises entre virgules, quand leur absence ne nuit pas à la compréhension du texte. Ainsi, c’est sans doute davantage le mode d’évaluation de la ponctuation qui a posé problème, que les incompétences des étudiants. C’est pourquoi la distribution des résultats est encore moins ici qu’ailleurs le reflet de la stratification des compétences entre les étudiants. Elle indique davantage une homogénéité de la population étudiante dans l’incompréhension de la consigne de l’exercice. Remarquons que malgré l’incapacité manifeste de cet exercice à tester les compétences réelles des étudiants, le même exercice a été à nouveau donné dans le test de 2001 (annexe II.2).

La distribution des résultats à l’exercice 7 ensuite sur la correction de fautes de langue est à rapprocher de la distribution des résultats à l’exercice 1 : l’allure gaussienne de la courbe indique là encore que les compétences testées sont indépendantes, même si nous le verrons cet exercice présentait en réalité plusieurs fois le même cas de figure à

0 100 200 300 400 500 600 700 0 1 2 3 4 5 6 7 8 9 10 Note à l'exercice N o m b re d tu d ia n ts exercice 6

corriger. La distribution est par ailleurs assez pointue, ce qui indique que chaque point obtenu fait beaucoup de différences entre les étudiants, les distingue fortement les uns des autres.

La distribution de l’exercice 8 est quant à elle plus difficile à analyser, étant donné que nous disposons de moins d’informations. Il est en effet composé de deux fois moins de questions. La distribution n’en reste pas moins d’allure gaussienne, régulière et plutôt arrondie. Ainsi les compétences testées dans cet exercice sont encore une fois indépendantes. Nous verrons en outre que cet exercice est particulier parce qu’il est le seul où il convenait de répondre par VRAI / FAUX – il fallait entourer le terme correct, si bien qu’il de tout le test celui qui permet le plus fortement l’hypothèse d’une influence du hasard dans les réponses. Les étudiants qui ne savent pas la réponse peuvent en effet avoir répondu comme s’ils jouaient à pile ou face.

La distribution à l’exercice 9 est quant à elle une des plus atypique, puisqu’elle est très décalée sur la gauche : dans l’ensemble les étudiants ont plus souvent échoué aux phrases de cet exercice qu’ils n’y ont réussi. Il conviendra bien sûr d’affiner l’analyse de cet exercice en comparant les résultats à chacune des deux parties de l’exercice. Nous pouvons néanmoins noter dès à présent que l’allure générale est plutôt gaussienne, ce qui indique que les questions sont plutôt indépendantes. L’allure est en outre arrondie, et les étudiants qui apparaissent les plus marginaux sont ceux qui ont très bien réussi l’exercice.

La distribution à l’exercice 10 enfin est elle aussi relativement atypique, mais de façon quasiment inverse par rapport à l’exercice précédent. La distribution est très décalée vers la droite, ce qui indique que les étudiants ont dans l’ensemble bien réussi cet exercice. Elle est à nouveau assez arrondie, et cette fois-ci les étudiants les plus marginaux sont ceux qui ont obtenu très peu de points à l’exercice.

Il nous reste à comparer les courbes de résultats à chacune des deux parties des exercices 2, 3 et 9. Dans chaque partie de ces exercices, les consignes données étant différentes, nous avons supposé une plus grande indépendance des compétences testées. Nous avons voulu vérifier s’il n’y a pas à l’intérieur de ces exercices des images différentes de l’hétérogénéité. De la même façon que précédemment, nous avons regroupé les demi-points avec les notes supérieures. En outre, la deuxième partie de l’exercice étant sur 4 points, et la première sur 6 points, nous avons multiplié l’échelle correspondant à la première partie de l’exercice par 3/2, pour faciliter la comparaison.

La figure 6 répartit les étudiants en fonction de leur note à chacune des deux parties de l’exercice 2. Pour permettre la comparaison de ces courbes, nous donc avons « dilaté » l’échelle de notation de la distribution des résultats de la partie B. Les cinq symboles de la courbe de la partie 2B () indiquent donc respectivement le nombre d’étudiants

qui a obtenu 0, 1, 2, 3 ou 4 points à la partie B de l’exercice (c’est-à-dire respectivement 0, 1.5, 3, 4.5 ou 6 si l’on rapporte ces notes sur 6 points).

Dans ce graphique, il apparaît que les deux courbes de notes sont plutôt gaussiennes, plutôt symétriques et régulières. La courbe des résultats à l’exercice 2 a donc la même allure que celle des résultats à chacune des parties de cet exercice. La courbe des résultats d’ensemble de cet exercice ne déforme donc pas l’hétérogénéité produite dans chacune des parties.

Figure 6 Résultats à chacune des deux parties de l’exercice 2326

Comme dans la figure précédente, la figure 7 répartit les étudiants en fonction de leur note à chacune des deux parties de l’exercice 3. L’échelle des notes obtenues à la partie B a également été « dilatée » pour permettre la comparaison avec les notes obtenues à la partie A. Cette figure indique que les résultats aux deux parties de l’exercice suivent des tendances très différentes, et presque opposées. Il faut en conclure que l’hétérogénéité montrée par les résultats d’ensemble à l’exercice 3 masque une hétérogénéité interne à l’exercice. La courbe des résultats à la partie B en particulier n’est plus gaussienne, et indique des ruptures entre les étudiants. Elle suggère même l’hypothèse que les compétences testées dans cette partie ne sont pas indépendantes. Toutefois, il peut s’agir là encore d’effets de notation – il s’agissait de noter deux questions sur deux points. Il semble en particulier que les correcteurs aient plutôt donné pour cette partie 0 ou 2 points sur 4 – cette dernière note pouvant correspondre à plusieurs cas de figure : 2+0 (les étudiants ont eu juste à la première phrase, et faux à la seconde), 1+1 (les étudiants ont obtenu la moitié des points à chaque phrase) ou 0+2.

326 Dans ce graphique et dans les deux suivants, nous ne sommes parvenue à imposer notre échelle d’abscisse

(Excell) si bien que l’échelle n’est pas régulière. Nous avons craint que cela ne modifie l’allure générale des courbes à partir de laquelle nous menons cette première analyse. Après vérification, nous avons constaté que les allures restaient globalement les mêmes, et que notre analyse n’était donc pas remise en question.

0 50 100 150 200 250 300 0 1 1,5 2 3 4 4,5 5 6 Note à l'exercice N o m b re d tu d ia n ts exercice 2A exercice 2B

Figure 7 Résultats à chacune des deux parties de l’exercice 3

Figure 8 Résultats à chacune des deux parties de l’exercice 9

La figure 8 enfin répartit les étudiants en fonction de leur note à chacune des deux parties de l’exercice 9. Comme pour les deux figures précédentes, nous avons « dilaté » l’échelle de notation, de façon à permettre la comparaison des deux courbes. Nous avons ici encore deux images différentes de l’hétérogénéité, mais dans une moindre mesure que pour l’exercice précédent. La partie A de l’exercice ressemble à une gaussienne asymétrique parce qu’elle est décalée à gauche par rapport à la moyenne théorique, et la partie B ressemble à une demi-gaussienne, puisque la courbe décroît régulièrement de 0 à 4. Ce qui diffère finalement dans ces deux cas, c’est la position du sommet sur l’échelle de notation : dans la partie A les étudiants les plus nombreux à avoir la même note ont 2 points sur 6, et dans la partie B ils en ont 0. Ainsi le décalage de la courbe des résultats à l’exercice 9 que nous avons observé précédemment (figure 4) est principalement dû à la partie A.

Il apparaît donc au regard de ces courbes que tous les exercices ne donnent pas la même image de la population étudiante. Ces différences s’expliquent en grande

0 50 100 150 200 250 300 350 0 1 1,5 2 3 4 4,5 5 6

Note des étudiants

N o m b re d tu d ia n ts exercice 9A exercice 9 B 0 50 100 150 200 250 300 0 1 1,5 2 3 4 4,5 5 6

Note des étudiants

N o m b re d tu d ia n ts exercice 3A exercice 3B

partie par les types de compétences testées – les étudiants sont meilleurs en grammaire de texte qu’en vocabulaire, ou bien l’exercice 10 est plus simple que l’exercice 9. Mais il convient de remarquer que le mode d’évaluation, les barèmes et les échelles de notation propres à chaque exercice peuvent aussi expliquer ces différences.