• Aucun résultat trouvé

Chapitre 3 Diagnostic et théorie des tests

3.2. Théorie Classique des Tests

3.2.1.2. validité - aspects quantitatifs

Aucun chiffre ne peut résumer à lui seul la validité d’un test, mais il existe un certain nombre d’analyses quantitatives possibles. Tout d’abord, comme dans toute analyse, il est important d’avoir une idée générale de la structure des données. Cette vue d’ensemble est obtenue par

des mesures de tendance centrale (la moyenne et la médiane des résultats de l’échantillon) et des mesures de dispersion des résultats : l’étendue (range), c’est-à-dire la différence entre le résultat le plus haut et le plus faible, et l’écart-type (standard deviation), une mesure des écarts à la moyenne. Nous inclurons également une mesure d’asymétrie (skew), qui est positive quand les scores au-dessus de la moyenne sont plus variés que les scores en dessous de la moyenne, et négative dans la situation inverse. Cela peut être visualisé avec un histogramme de fréquence (Figure 3.1) : une mesure d’asymétrie positive correspond à une « queue » plus longue à droite (figure de droite) et une mesure d’asymétrie négative à une « queue » plus longue à gauche (figure de gauche). Le but dans l’étude étant de diagnostiquer les étudiants ayant besoin de remédiation, c’est dans les scores faibles que nous aurons besoin de plus de détails. Une asymétrie négative serait donc préférable à une asymétrie positive.

Figure 3.1 - asymétries négative et positive (d'après le site Good Data29)

Après une première description générale des résultats, il faut vérifier de façon détaillée la qualité de chaque item. Le « coefficient de difficulté » de l’item correspond au pourcentage de candidats qui ont trouvé la réponse juste à cet item (on parle aussi de « facilité » de l’item, du fait que plus il est élevé, plus l’item est facile). Les items ne doivent être ni trop faciles ni trop difficiles. Un item réussi par tout le monde, par exemple, ne peut pas contribuer à diagnostiquer des lacunes. A l’inverse, un item qui n’est réussi par aucun candidat ne nous aidera pas à différencier entre les étudiants n’ayant pas besoin de remédiation et les autres. Le coefficient de difficulté sera donc de préférence compris entre 20 et 80 pourcent (Bachman 2004, p.138). Pour des tests diagnostiques, il vaut mieux que les items soient trop faciles que trop difficiles. En effet, certains items très faciles qui ne sont ratés que par des étudiants très faibles pourront nous aider à identifier ces derniers. Nous accepterons donc des indices allant

29 https://help.gooddata.com/doc/en/reporting-and-dashboards/maql-analytical-query-language/maql-expression- reference/aggregation-functions/statistical-functions/predictive-statistical-use-cases/normality-testing-skewness-and-kurtosis

jusqu’à 90-95%, à condition que le coefficient de discrimination soit suffisamment élevé (cf. paragraphe qui suit).

Ensuite, il faut vérifier que les questions sont mieux réussies par les candidats dont le niveau est plus élevé que par ceux dont le niveau est plus faible. Ceci est fait grâce à un « coefficient de discrimination », le coefficient de corrélation bisérial de point, qui calcule la corrélation entre la réussite à l’item et la réussite au test. Ce coefficient doit être égal à 0,2 au moins pour que l’item soit de discrimination acceptable, et supérieur à 0,3 pour un item de bonne discrimination (Laveault & Grégoire, 2014, p. 211).

Une dernière vérification importante pour déterminer la validité d’un instrument évaluatif est celle de l’unidimensionnalité du test. Il s’agit de vérifier mathématiquement que tous les items sont corrélés entre eux et vont dans le même sens (varient ensemble), ce qui nous permet d’apporter un argument supplémentaire pour montrer empiriquement que tous les items testent le même construit. Les items d’un test diagnostique donné devraient également être plus corrélés entre eux qu’avec les items de tests visant à mesurer d’autres facteurs. Par exemple, les items du test de sensibilité accentuelle devraient être plus corrélés entre eux qu’avec les items du test de discrimination phonémique, même si on s’attend à ce que les deux tests partagent une variance non négligeable du fait qu’ils font tous les deux appel au traitement du signal sonore et sont dépendant du même input (l’anglais oral). Pour faire ces analyses, nous utiliserons une technique similaire à l’analyse factorielle (l’alpha de Cronbach nous donne une première indication, mais n’est pas suffisant selon Laveault & Grégoire, 2014), à savoir la technique d’analyse en composantes principales. Cette technique vise à vérifier qu’il existe une variable (la composante principale) qui permet d’expliquer l’essentiel de la variance observée chez tous les items d’un test (A. Field et al., 2012, p. 760).

Pour la plupart de ces analyses, nous utiliserons le logiciel libre R, qui peut être téléchargé librement en ligne (R Development Core Team, 2005), avec l’interface R Studio30. Cette suite de programmes possède une base importante de fonctionnalités qui permettent de réaliser les actions les plus importantes : importation de fichier sous forme de tableaux (.csv), traitement sur ces tableaux (modifications, ajout ou suppression de lignes ou de colonnes, et opérations sur ces données), production de graphiques. Par ailleurs, des « bibliothèques » de fonctions (couramment appelées « packages » y compris par les utilisateurs francophones) automatisant des opérations supplémentaires ou proposant des graphiques plus élaborés peuvent être

téléchargées facilement pour enrichir les fonctions de base. Nous signalerons systématiquement quels packages ont été utilisés pour les analyses que nous proposerons. Ces analyses sont effectuées à l’aide d’appels successifs de fonctions qui peuvent être enregistrées dans un « script » R (une suite de fonctions commentées) qui peut ensuite être exécuté de nouveau avec un autre fichier, sans qu’il soit besoin de repasser par chacune des étapes. Des exemples de scripts utilisés sont disponibles dans l’Annexe 7.

3.2.2. Fidélité