Différents types d’évaluateurs - Synthèse des enjeux et questionnements en suspens

1.3 Synthèse des enjeux et questionnements en suspens

3.1.2 Différents types d’évaluateurs

Dans l’article précédent, les lectures avaient été jugées par trois évaluateurs "experts" en lecture d’enfants, enseignants et participant au projet et donc très familiers avec l’échelle et ses différentes dimensions. Le choix des juges pourrait donc expliquer des coefficients d’accord inter-évaluateurs élevés. Nous avons donc voulu tester l’utilisation de l’EMDF avec des juges de différents horizons. Cela nous permet de comparer les coefficients d’accord entre différents types de juges, les scores moyens attribués et le classement des lectures.

Méthodologie

Cette étude a été menée sur le texte 1 uniquement, avec des lectures issues du corpus longitudinal. Deux sessions d’évaluations supplémentaires ont été menées pour ce texte. Lors de la première session, neuf étudiantes en master 2 neuropsychologie de l’enfant ont évalué les 181 lectures du corpus longitudinal. Lors d’une deuxième session, onze enseignantes du premier degré, ont évalué 51 lectures de ce même corpus. Nous disposons également des évaluations de trois juges experts pour les deux premières années du corpus longitudinal. Pour chacune de ces sessions, le protocole a été le même. La session commence par une présentation et explication de l’utilisation de l’EMDF. Les juges écoutent ensuite collectivement 15 lectures d’entraînement. A la suite de chaque lecture, ils échangent sur les scores attribués pour se mettre d’accord sur la façon de noter. Il est intéressant de noter que pour le jury d’enseignantes, les scores ont rapidement été harmonieux entre les juges. A la suite de ces 15 lectures d’entrainement, l’écoute des lectures est toujours collective mais les notations sont alors individuelles, sans aucun échange entre les juges. Pour ces deux sessions les lectures du corpus longitudinal sont présentées dans un ordre aléatoire, de façon à ce que le même sujet ne soit pas entendu plusieurs fois à la suite et à ce qu’il n’y ait pas de progression en terme d’âge ou de niveau de lecture.

Résultats

Pour chaque jury et pour chaque année du corpus longitudinal, nous avons calculé l’accord inter-évaluateur en utilisant le coefficient Alpha de Krippendorf (Hayes et Krippendorff, 2007). Le tableau 3.8 présente ces coefficients pour chaque jury. Le jury expert étant composé de personnes différentes suivant les années, il a été scindé en deux. Le jury experts 1 est le jury ayant évalué les lectures du corpus transversal, ce qui correspond à l’année 1 du corpus longitudinal, soit uniquement des CE1. Le jury experts 2, ayant deux personnes en commun avec le jury experts 1, a évalué les lectures de l’année 2 du corpus longitudinal, soit uniquement des CE2. Pour rappel, le corpus longitudinal comprend trois lectures de 62 enfants enregistrés en CE1, CE2 et CM1.

Étude 1

Table 3.9 – Scores moyens à l’EDMF pour chaque jury et chaque dimension de l’EMDF jury expressivité phrasé décodage vitesse total

Experts 2(0.79) 2.47(0.76) 2.63(0.72) 2.61(0.69) 9.79(2.36) Enseignantes 2.16(0.83) 2.59(0.69) 3.04(0.67) 2.69(0.83) 10.48(2.69)

Etudiantes 2.65(0.8) 2.91(0.69) 3.13(0.66) 3.07(0.84) 11.76(2.76)

Tout d’abord, concernant les coefficients d’accord inter-évaluateurs, on peut observer une dif- férence entre les deux jurys d’experts. Celle-ci pourrait s’expliquer par un changement dans le protocole d’évaluation. En effet, lors du jury experts 2, la phase d’entrainement avait été écourtée, car l’accord était rapide entre les évaluateurs et ceux-ci étaient habitués à utiliser l’EMDF. D’autre part, si une partie des évaluations avait été réalisée collectivement à la suite de l’entrainement, une autre partie des évaluations a été réalisée quelques jours plus tard individuellement par un des évaluateurs. Cet "assouplissement" dans le protocole d’évaluation pourrait expliquer la différence entre les deux jurys experts. Une autre explication possible à cette différence est que le jury experts 1 a évalué les lectures des CE1 parmi des lectures d’enfants allant du CE1 à la 5e_{. La variabilité}

dans la fluence des élèves était alors très importante, et les CE1 représentant les plus faibles lecteurs, il y a pu y avoir un effet plancher. Le jury expert 2 n’a évalué que des lectures de CE2, présentant donc une variabilité moindre. Plus globalement, on peut constater que les experts 1 ont des coefficients plus élevés que les enseignantes et les étudiantes. Le coefficient indique un bon accord sur le score total (>.70) mais cet accord est moyen, voir faible ( < .60) pour les dimensions considérées indépendamment les unes des autres. Sans considérer les experts 2, dont on a évoqué les conditions particulières d’évaluation, on peut voir que la dimension présentant l’accord le plus faible est toujours le décodage ( < .60), puis le phrasé et l’expressivité et la vitesse. Si l’accord est un peu plus faible pour les étudiantes, il reste assez proche pour les trois groupes d’évaluateurs.

Nous avons ensuite comparé les scores moyens donnés par chaque type de jury pour les mêmes 33 lectures du texte 1 évaluées par tous les jurys. Ces résultats sont présentés dans le tableau 3.9. L’effet du jury sur le score a été confirmé en comparant deux modèles de prédiction du score : un modèle unique et un modèle comprenant l’effet fixe du jury. Ces modèles ont été estimés avec la fonction lmer (package lme4 dans R) et les sujets comme paramètres aléatoires. L’effet du jury est significatif pour le score global (∆χ2_{(2) = 28.2, p < .001) ainsi que pour chacune des dimensions :} expressivité (∆χ2(2) = 38.6, p < .001), phrasé (∆χ2(2) = 15.4, p < .001), décodage (∆χ2(2) = 17.5, p < .001) et vitesse (∆χ2_{(2) = 17, p < .001). A l’exception du décodage, les étudiantes donnent} des scores plus élevés que les enseignants et les experts (p < .001 pour toutes les dimensions). Il n’y a pas de différence significative entre les scores des experts et des enseignants. Pour le décodage, les experts donnent des scores significativement plus faibles (p < .001) que les étudiantes et les enseignantes, entre lesquelles il n’y a pas de différence significative.

Afin d’aller plus loin dans la comparaison entre les différents types d’évaluateurs, nous nous sommes interressés à la corrélation entre les moyennes obtenues par les lecteurs pour chaque jury. Le tableau 3.10 présente les coefficients de Spearmann calculés en corrélant les scores des jurys deux à deux.

Il apparait dans ce tableau que les corrélations sur les scores globaux moyens sont très bonnes quels ques soient les jurys comparés (de l’ordre de .90). Ils sont également bons sur chaque dimension (compris entre .77 et .91), à l’exception du phrasé et du décodage entre les enseignantes et les experts, un peu plus faible. On voit donc que si les scores différent entre les types d’évaluateurs, tous classent les lecteurs de la même façon, particulièrement sur le score global.

Chapitre 3. Évaluation subjective

Table 3.10 – Corrélation (coefficient de Spearmann) entre les scores moyens à l’EDMF sur le corpus longitudinal, pour chaque type de jury, deux à deux.

nombre sujets expressivité phrasé décodage vitesse total

Ens/Exp 34 .77*** .69*** .61*** .78*** .89***

Ens/Etud 51 .91*** .85*** .88*** .89*** .94***

Exp/Etud 119 .78*** .84*** .78*** .84*** .92***

Note : Ens = enseignantes, Exp = experts, etud = étudiantes. *** : p < .001

Discussion

Ces analyses supplémentaires, en jouant sur la connaissance des lectures d’enfants d’une part et de la prosodie et fluence en lecture d’autre part, nous permettent de confirmer la fidélité de l’outil présenté ici. En effet, on peut constater qu’avec un entrainement adapté, l’accord inter-évaluateurs est bon, quelle que soit l’expérience préalable des juges intervenant dans l’évaluation. Comme constaté dans l’article précédent sur le corpus transversal, cet accord est meilleur pour le score global. En effet, on observe le même effet pour tous les types de jurys, les scores ne différant très souvent que d’un seul point sur certaines dimensions et ces points de différence se compensant pour donner le même score global. Les étudiantes, jury le moins familier dans l’évaluation des lectures d’enfants, a tendance à donner des scores plus élevés que les jurys plus familiers de cet exercice. Malgré cela, les corrélations entre les scores moyens donnés par chaque type de jury sont élevés. Ainsi même si les scores différent d’un demi-point sur les dimensions de l’EMDF, le classement des enfants est le même pour tous les jurys. Ainsi l’EMDF peut-être efficacement utilisée par différents types d’évaluateurs. Cette étude complémentaire sur le type d’évaluateurs vient en appui des résultats obtenus pour le corpus transversal.

Cette étude met également en avant deux points importants. Tout d’abord le faible accord entre les deux groupes d’experts montre l’importance de l’entrainement et du suivi du protocole dans la mise en œuvre de l’outil. Le faible accord entre évaluateurs sur chacune des dimensions prises séparément, montre également l’importance, notamment pour la recherche, d’avoir plusieurs évaluateurs et de considérer un score moyen pour chacune de ces dimensions. Ces observations confirment donc les préconisations faites par Moser et al. (2014) sur la nécessité que plusieurs juges évaluent plusieurs textes pour chaque sujet. D’un point de vue plus large, cette étude met aussi en évidence la difficulté de mesures répétées, par exemple dans le cadre d’un suivi. En effet, on a pu constater qu’une mesure ponctuelle peut-être fiable quel que soit le jury et peut permettre de comparer les résultats de plusieurs sujets. Cependant pour mesurer les progrès dans le temps d’un même sujet, il risque d’être complexe de différencier la variabilité due au jury de celle due aux progrès de l’enfant. Nous reviendrons sur cette question dans le chapitre suivant.

Dans le document De l'automaticité à l'expressivité et à la compréhension en lecture : Évaluation et développement de la prosodie en lecture chez le jeune lecteur (Page 83-85)