Les mesures d'évaluation effectuées durant et après la lecture

CHAPITRE 2 : CADRE THÉORIQUE

2.2 Le développement de la compréhension en lecture

2.3.5 L'évaluation de l'inférence

2.3.5.1 Les mesures d'évaluation effectuées durant et après la lecture

Différentes mesures sont à la portée des chercheurs qui souhaitent évaluer la formulation d’inférences pendant la lecture. Ils peuvent, par exemple, calculer la vitesse de la lecture dans des tâches nécessitant la formulation d'inférences (voir, entre autres, les travaux de Cain et Nash, 2011; Oakhill, Hart et Samols, 2005). Thurlow et van den Broek (1997) expliquent que l'élève apte à formuler des inférences devrait ralentir aux passages qui en nécessitent la formulation. Par exemple, dans une phrase comme Janet's dog slammed into the table in his enthusiasm.

Later she surveyed the broken shards of her rare vase. , les auteurs relèvent plusieurs inférences

anaphoriques entre les pronoms et leur référent (she et her réfèrent à Janet et his au chien de Janet) ainsi que des inférences de causalité entre le vase qui se trouve logiquement sur la table, la table bousculée par le chien trop heureux et le vase qui se brise sur le sol (Thurlow et van den Broek, 1997, p.173) Cependant, selon ces chercheurs, rien n'indique avec certitude qu'il s'agit uniquement de l'inférence qui influe sur le temps de lecture. D'autres variables, telles que la gestion de la compréhension, l'accès à l'information en mémoire ou la capacité de concentration

peuvent intervenir et être la cause de ce ralentissement. Un autre exemple de mesure concerne l’analyse des mouvements oculaires à l'aide d'un appareil. Les chercheurs supposent que les yeux de l'élève s'attarderont davantage sur les passages nécessitant une inférence (Carlson, Sei- pel et McMaster, 2014).

Parmi les mesures pouvant être administrées après la lecture, il existe des tâches 1) de décision lexicale, 2) de reconnaissance de phrases, 3) d'appariement et 4) de rappel. Dans un premier temps, les tâches de décision lexicale peuvent prendre différentes formes. Cain et Nash (2011) font choisir entre deux mots celui qui s'apparente le mieux au contexte. La phrase sui- vante en est un exemple: Sam walked into the lesson after/because it had started (p. 441). Cain, Lemmon et Oakhill (2004) font définir des logatomes à l'aide du contexte; en effet, elles font varier le niveau de difficulté de la tâche en modifiant l'emplacement d'un logatome selon qu'il est près ou éloigné du contexte explicatif. Elles proposent une phrase comme Lucy was taking

her dog, Ben, to the park. First, she had to find Ben's wut (p. 873). Un « wut » n'existe pas et

son sens doit être déduit à l'aide du contexte. Parmi le deuxième type de tâches, soit celle de reconnaissance de phrases, il y a celle de L'ÉCOSSE (épreuve de compréhension syntaxico- sémantique) (Lecocq, Casalis, Leuwers et Watteau, 1996). Dans cette épreuve, l'élève lit une phrase, la mémorise et tourne une page pour retrouver l'image qui correspond à la phrase. Dans le cadre de la troisième catégorie de tâche, celle d'appariement, on demande à l'élève de placer ensemble deux phrases en une seule phrase cohérente, mais qui démontre une logique (par exemple : Julie a soif. Le jus est rangé dans le réfrigérateur. = Julie boit du jus froid). Enfin, lors d’une tâche de rappel, l'élève doit dire, à la suite de sa lecture de deux, trois et ensuite, quatre phrases, si un mot précis a été mentionné. Il peut s'agir exactement de ce mot, ce qui réfère à la mémoire de travail, ou d'un synonyme, ce qui peut indiquer une inférence. Cette tâche de rappel vise, à la fois, à s'assurer de ce que l'élève a retenu, mais aussi à identifier la présence de premiers liens logiques entre des informations (voir, entre autres, les recherches de Barnes, Dennis et Haefele-Kalvaitis, 1996; Cain et Oakhill, 2012).

Outre les diverses tâches énumérées plus haut, le chercheur peut aussi se référer à un test de compréhension en lecture qui sera maintenant décrit. Le test de compréhension en lecture se compose d'une lecture suivie d'un questionnaire, dans le cas qui nous intéresse, comportant des

questions d’inférences. Il y a nettement moins de tests évaluant l'inférence en français qu'en anglais (Potocki et al., 2014). En anglais, on retrouve, par exemple, le test Neale (version de 1989) servant à évaluer la production d’inférences (voir, par exemple, Cain et Oakhill, 1999, 2004, 2011, 2012). Au Québec, à notre connaissance, nous ne disposons pas encore d'un test qui mesure les inférences et qui soit comparable, en termes de fidélité et de validité, au test Neale. Lavigne (2008) a construit pour sa thèse de doctorat un outil pertinent parce qu'il est récent et de construction québécoise. Toutefois, il ne satisfait pas aux exigences d'un test standardisé, c'est-à-dire un test normé, dont la validité et la fidélité ont été vérifiées et pour lequel les résultats peuvent être réutilisés (Cormier, Desrochers et Sénéchal, 2006; Van der Maren, 1996). Il faut donc faire preuve de prudence dans l'interprétation des résultats obtenus par ce test.

Le test de Lavigne (2008) comporte 4 textes, tous suivis de 13 questions : 3 littérales, 5 d'inférences de cohésion et 5 d'inférences d'élaboration. Toutes les questions sont à choix mul- tiples, ce qui implique que l'inférence correcte est explicitement mentionnée parmi les choix. La question littérale sert de questions contrôle, car elle est généralement plus facile à réussir que celle sur l'inférence (Barnes et al., 1996; Cain, 2010; Hansen et Pearson, 1983; Lavigne, 2008). Elle permet de situer le niveau de compréhension d'un élève : un élève moyen devrait réussir ce type de question, alors qu'elle peut poser problème à un élève qui éprouve de sérieuses difficul- tés de compréhension. Afin que les réponses ne soient pas le fruit du hasard, Lavigne s'assure de mélanger l'ordre d'apparition des bonnes réponses et ajoute un choix : je ne sais pas.

Pour valider son test, Lavigne débute en s'assurant de la lisibilité des textes, c'est-à-dire de l'adéquation entre le niveau de difficulté de lecture et le groupe d'âge auquel il s'adresse. Pour ce faire, elle utilise les cinq critères de lisibilité d'un texte établis par Henry (1975) : le nombre de phrases, le nombre de mots, le nombre moyen de mots par phrases, le nombre de mots absents de la liste de Gougenheim (1964)14_{multiplié par 100 et divisé par le nombre total de mots et le} nombre d'indicateurs de dialogue15_{multiplié par 100 et divisé par le nombre total de mots. Une} fois ce calcul fait, il faut le reporter à des tables de lisibilité faites par Henry qui situent qu'une zone de lisibilité devrait se situer entre 35 % et 45 %. Sous le pourcentage de 35 %, on obtient

14 _{Il s'agit d'une liste de mots fondamentaux de vocabulaire (Lavigne, 2008). Lorsqu'un mot est absent de cette}

liste, il s'agit d'un mot peu fréquent.

un texte trop facile, tandis qu’en haut de 45 % il apparait trop difficile. À la lumière du tableau VIII, tous les textes élaborés par Lavigne se situent près ou dans la zone de lisibilité établie par Henry, quoique près de la zone de facilité.

Tableau VIII Indices de lisibilité des textes de Lavigne (2008)

Textes 1 2 3 4

Indices de lisibilité selon Henry (1965)

35,5 % 36 % 34,5 % 35,5 %

Par la suite, Lavigne effectue une pré-expérimentation auprès de 75 élèves de la 5e_{et de} la 6e_{année. Cette étape lui permet de valider la fiabilité de chaque version avec le calcul du} coefficient de Cronbach. Ce coefficient vérifie la cohérence interne des questions d'un test, c'est- à-dire si les questions mesurent toutes le même contenu. Le coefficient obtenu est de .85, ce qui se situe entre les barèmes de fiabilité qui oscillent entre .70 et .9016_{. Finalement, Lavigne effec-} tue une analyse corrélationnelle qui vérifie la cohérence externe du test, ou en d'autres mots, s'il mesure bien ce qu'il doit mesurer. Elle utilise les résultats à son test auprès des participants de sa thèse (n= 244) et l'évaluation faite par leurs enseignants. Ceux-ci devaient donner une cote de 1 (élève en difficulté de compréhension) à 5 (élève fort en compréhension) selon leur juge- ment du niveau de compréhension de l'élève. Le test de Lavigne obtient à l'analyse corrélation- nelle un R de Pearson de .53, soit une corrélation positive moyenne17_{. Ce coefficient de Pearson} indique la force de l'association entre deux variables, dans ce cas-ci entre l'évaluation de l'en- seignant et le résultat obtenu au test.

Quelques années plus tard, Potocki et al. (2014) proposent un test similaire à celui de Lavigne avec deux textes accompagnés chacun de 12 questions : 4 littérales, 4 de cohésion et 4

16_{Selon les données théoriques fournies par l'Université de Sherbrooke dans son site sur le traitement statistique}

de SPSS http://spss.espaceweb.usherbrooke.ca/

17_{Un R de Pearson varie entre -1 (corrélation forte négative) à 1 (corrélation forte positive) selon les données}

d'inférences basées sur les connaissances18_{. Le texte A est d'une longueur de 93 mots et le B de} 237 mots. Les chercheurs ont contrôlé la fréquence des mots des textes grâce à la base de don- nées Manulex (Potocki et al., 2014). Le test a été expérimenté auprès de 525 élèves de CM2 (soit l’équivalent de la 5e_{année). Ces derniers devaient faire une lecture silencieuse de chaque} texte et répondre ensuite aux questions. Aucune limite de temps n'était imposée. Cette expéri- mentation permet, par la suite, aux chercheurs de calculer la consistance interne du test qui sera de .70 (alpha de Cronbach) ainsi que des corrélations (R de Pearson) entre les trois types de questions toutes significatives (.60 entre les questions littérales et les questions d'inférences de cohésion; .52 entre les questions littérales et les questions d'inférences basées sur les connaissances; .55 entre les questions d'inférences de cohésion et celles basées sur les connaissances pour une moyenne de .55). L'ensemble de ces résultats validant le test permettent aux chercheurs de considérer cet outil de mesure comme satisfaisant aux normes d'un test scientifique19_{. On} constate que les coefficients de consistance interne et ceux de corrélation du test de Lavigne (2008), respectivement de .85 et .53, et de celui de Potocki et al (2014), soit de .70 et .55, oscil- lent dans les mêmes zones de fiabilité.

Cette présentation permet de faire le constat selon lequel malgré la variété de tâches mises à la disposition des chercheurs, aucune ne semble reconnue comme pouvant détecter avec certitude que l'élève a formulé une inférence. En effet, les tâches de décision lexicale peuvent inciter à formuler une inférence, mais elles concernent davantage l'identification de mots pris localement et peuvent ne pas permettre d'identifier une difficulté dans l'établissement de la co- hérence globale du texte (Bouguyon, 2016; Potocki et al., 2014). Pour les tâches de reconnais- sance de phrases, Potocki et al. (2014) leur reprochent de ne pas permettre l'évaluation de la capacité à construire une cohérence globale du texte et le trop grand support de l'image qui risque de nuire à la détection d'inférences, l'élève effectuant davantage une tâche d'association. Toujours selon Potocki et al. (2014), il est possible que les consignes des tâches, les images ou les choix de réponses proposées guident l'élève vers ce qu'il doit réaliser. Quant au test de com- préhension en lecture accompagné de questions inférentielles, la présence de choix de réponses

18_{Ces chercheurs n'utilisent pas le terme « élaboration » qui, selon eux, incite à considérer cette inférence comme}

étant optionnelle, ce qu'ils désapprouvent (Potocki et al., 2014).

guide aussi l'élève et risque ainsi d'entraver la formulation réelle d'inférence (Potocki et al., 2014). En ce sens, on peut se demander si l'élève a réellement formulé cette inférence, ou si c'est la démarche de la tâche qui l'y a incité. D'ailleurs, n'est-ce pas le caractère même de l'inférence qui limite son évaluation et sa détection? Le processus inférentiel étant par définition un processus interne de réflexion dont les manifestations ne sont pas visibles extérieurement, il est difficile de statuer avec certitude qu'une inférence a bel et bien été formulée par un élève.

C'est en considérant ces limites que plusieurs chercheurs s'intéressent au protocole verbal comme mesure de détection de la production d'inférence durant la lecture et après celle-ci. La troisième et dernière section s'intéresse justement à ce type de mesure.

Dans le document Expérimentation d'un enseignement réciproque pour améliorer la formulation d'inférences en compréhension de la lecture d'élèves du 3e cycle du primaire en contexte montréalais (Page 83-88)