Que montre PISA ? - Qu’a-t-on appris avec ce programme ? 1 Diffusion des résultats

1 2.1 La définition de la compréhension de l’écrit

Question 2. Il s’agit d’une question à réponse construite, correspondant au

1.4. Qu’a-t-on appris avec ce programme ? 1 Diffusion des résultats

1.4.2. Que montre PISA ?

L’analyse des résultats propres à la France va être privilégiée et, sauf mention particulière, nous nous réfèrerons maintenant à eux. Nous laissons de côté les aspects psychométriques, les divers et nombreux questionnaires auxquels élèves et administration des établissements ont été soumis.

a. L’échelle combinée de compréhension

Les échelles de compréhension rendent compte à la fois de la difficulté des items et des compétences des élèves (pour des détails, Bourny et al., 2002 ; Broi et al., 2003). L’élève moyen affecté à un niveau de compétence est censé pouvoir réussir dans 62 % des cas une question de difficulté moyenne se rappor- tant à ce niveau. Les niveaux de compétence en compréhension de l’écrit ont été initialement définis pour que « chaque niveau de compétence représente une série de tâche et de savoirs et savoir-faire y afférents, mais également une série de compétences démontrées par les élèves » (OCDE, 2003, p. 43).

La France réussit en moyenne 62 % des items de compréhension (vs 61 %), mais ce pourcentage masque la variété de la population évaluée ; il préfé- rable d’examiner sa ventilation dans les cinq niveaux de compétences qui la décrit beaucoup mieux (voir annexe 1). Comme le cadre de référence de PISA n’intègre pas les compétences de base en lecture, supposées acquises par le plus grand nombre, et accorde sa préférence à l’évaluation de compétences de niveaux plus élevés, on ne peut conclure que les 4 % des Français situés au niveau le plus bas de performance n’ont pas de compétences, mais il faut s’interroger sur leurs possibilités d’utiliser la lecture comme un outil au service de la vie courante. L’OCDE estime qu’il faut atteindre le niveau 3 pour pouvoir faire face aux tâches requises par la société. En France, environ 63 % des jeunes de 15 ans seraient dans ce cas (au niveau 3 et au delà).

Pour les QCM, le taux de non réponses est faible et identique à la moyenne internationale, mais pour les questions nécessitant une réponse construite, il lui est supérieur. Ce phénomène sera étudié par la suite.

b. Effet du genre

Les filles obtiennent des scores moyens de compréhension plus élevés que ceux des garçons, confirmant les différences classiques. Elles obtiennent

31.indb 122

Regards croisés sur les évaluations institutionnelles

123 des réussites similaires pour les textes continus et non continus, mais, chez les garçons, on remarque un effet du « type de textes », leurs scores étant plus élevés pour les textes non continus que pour les textes continus.

c. Effets du niveau scolaire sur les performances à PISA

Contrairement à bien d’autres pays, où une classe d’âge fréquente le même niveau scolaire, la population française de 15 ans se répartit de la classe de 4e à celle de 1re, un peu plus de la moitié étant « à l’heure ». Les élèves scolarisés en 1re, en seconde Générale et Technologique ont des scores largement supérieurs à la moyenne française (respectivement, 609 et 561), ceux qui sont en seconde Professionnelle 476, en 3e 449 et en 4e 397. Niveau de compétences et retard scolaire sont fortement liés (Murat & Rocher, 2002), le corollaire étant l’accroisse- ment de la production de non-réponses aux questions à réponse construite. d. Les effets des « types de tâches »

Nous allons maintenant considérer les résultats aux trois échelles spéci- fiques qui présentent les résultats aux « types de tâches » : « s’informer, inter- préter, réfléchir ». Les performances des Français à ces trois tâches de lecture sont proches des moyennes internationales. Les Français retrouvent plus facile- ment l’information (515 vs 498) qu’ils ne développent une interprétation du texte (506 vs 501). Les performances chutent pour Réfléchir, là où il faut prendre de la distance par rapport au document proposé, et elles sont significativement infé- rieures à la moyenne internationale (496 vs 502).

Tableau 1. Le tableau ci-dessous présente pour la France et pour chacune de ces dimensions, les pourcentages de bonnes réponses et de non-réponses (entre parenthèses). S’informer 36 items Interpréter 64 items Réfléchir 29 items Niveau 5 13,2 (0,5) 9,00 (0,8) 8,60 (2,2) Niveau 4 25,2 (1,6) 23,40 (1,9) 21,00 (6,6) Niveau 3 27,00 (3,6) 30,30 (4,0) 28,70 (12,4) Niveau 2 19,20 (6,9) 21,80 (7,2) 23,40 (22,0) Niveau 1 10,50 (13,6) 11,50 (11,8) 12,50 (34,7) En dessous Niv. 1 4,90 (25,7) 4,00 (20,9) 5,90 (49,7)

Dans chaque case, figure le pourcentage d’élèves capables de réussir les tâches de ce niveau ainsi que celles qui sont associées aux niveaux inférieurs de l’échelle considérée. Il n’est pas exclu que ces élèves accomplissent avec succès certaines tâches de niveau supérieur (au plus 50 % selon les experts). Une description de chacun des niveaux de chaque dimension se trouve dans le rapport centré sur la lecture (OCDE, 2003, p. 44).

31.indb 123

REPÈRES N° 31/2005 M. RÉMOND

124

Les trois sous-échelles de compréhension évaluent des démarches diffé- rentes : retrouver de l’information, interpréter le texte, réfléchir et évaluer le texte. Pour la première, la proportion d’élèves français atteignant le niveau 5 dépasse très significativement la moyenne internationale. À l’inverse, elle lui est nettement inférieure pour Réfléchir et l’écart entre les scores des filles et des garçons fran- çais s’accentue pour cette dimension. Nous verrons par la suite émerger des profils différents de pays.

e. La fréquence des non-réponses

Le pourcentage de non-réponses est indiqué entre parenthèses dans chaque case du tableau précédent. La fréquence des non-réponses semble très corrélée avec le niveau atteint dans les échelles de PISA.

Pour les échelles S’informer et Interpréter, les répartitions de non-réponses par niveau sont assez semblables. Pour ces échelles, les questions de type QCM sont deux fois plus nombreuses que les questions ouvertes, nécessitant une tâche d’écriture. En revanche, pour l’échelle Réfléchir, le pourcentage de non- réponses est spectaculairement plus élevé, ce qui laisse penser que cette échelle fonctionne différemment des deux autres. Le facteur format de réponses parti- cipe à ce phénomène. Les questions à réponse construite sont ici deux fois plus nombreuses que les QCM, d’ailleurs réussis comme dans la moyenne des autres pays avec peu de non-réponses. Pour cette dimension, les élèves sont confrontés, à la fois, à un format de réponse requérant majoritairement le passage à l’écrit, et à une tâche peu pratiquée dans notre système scolaire.

Il ne faut pas négliger, d’une manière générale, les cas où les élèves, déso- rientés par l’énoncé de la question, ne la traitent pas, par exemple la demande d’exprimer leur opinion personnelle (cf. Graffiti). Ils s’interrogent beaucoup sur leur interprétation des tâches dès que celles-ci s’écartent de leurs habitudes scolaires, car ils cherchent toujours à rapprocher les tâches de PISA de leurs habitudes scolaires, à ramener à du connu. Nous avancerons par la suite quelques hypo- thèses pour expliquer ce comportement.

Pour les items qui nécessitent de construire une réponse écrite, nos élèves recourent beaucoup plus souvent à des non réponses que la moyenne des autres pays, et ce comportement s’observe déjà au CM1, comme le montrent les premiers résultats de l’évaluation PIRLS (Colmant & Mulliez, 2003). Ce phéno- mène s’observe également pour les deux domaines « mineurs » évalués en 2000 : la « culture mathématique » et la « culture scientifique ». Parmi les explications avancées par les collègues de mathématiques, la première concerne la difficulté d’expression. Dès lors qu’une réponse doit être expliquée, la nécessité de rédiger est perçue comme un obstacle par un certain nombre d’élèves.

La seconde explication a trait à la difficulté à exercer un regard critique au sens de PISA, activité qui semble absente de nos pratiques, au moins jusqu’au lycée, dans les trois domaines évalués. Les enseignants de sciences développent un autre argumentaire : en classe, ils demandent à leurs élèves de faire preuve d’esprit critique et de ne pas fournir de réponse plutôt que d’en fournir une qui n’a pas de sens. Les élèves français paraissent avoir intégré cela et produisent peu de réponses erronées. Au sens de la métacognition, sauraient-ils donc s’auto-évaluer et n’afficher que les réponses correctes ? Cette hypothèse optimiste semble diffi-

31.indb 124

Regards croisés sur les évaluations institutionnelles

125 cile à généraliser sur l’ensemble des items de PISA. Les enseignants de toutes les disciplines estiment que les élèves ont peur de l’erreur et d’être jugés.

Avons nous une particularité culturelle ou pédagogique favorisant ce comportement qui parait émerger très tôt ? Nos élèves ont-ils peur de prendre des risques, contrairement à ceux d’autres pays ? Dans PISA, les élèves américains produisent beaucoup plus de réponses erronées que nos élèves, et de manière corollaire s’abstiennent rarement de répondre. Dans leur culture scolaire, ils sont encouragés à répondre, même à deviner la réponse (« to guess »), les enseignants leur expliquant qu’une réponse erronée ne leur enlève pas de points.

Certains facteurs socio-culturels, comme l’estime de soi et les attributions causales de ses succès et de ses échecs dans la réussite scolaire, présentent de nettes différences entre des enfants américains et allemands (Kurtz et Schneider, 1994). Les enfants allemands comme les français tendent à attribuer leurs succès à leurs capacités alors que les enfants américains croient en leurs efforts. L’impact de tels facteurs est difficile à estimer et leur poids peut être différent selon le niveau d’expertise de l’élève (Ehrlich et al., 1995 ; Saarnio et al., 1990). Rappelons que presque la moitié des élèves soumis à PISA sont encore au collège et ont donc redoublé au moins une classe. L’impact du redoublement sur les facteurs conatifs a été vérifié en fin de primaire et en fin de collège (Paul & Troncin, 2004). Les enfants en retard sous-estiment leur niveau réel de compétence et ont un sentiment d’échec perçu beaucoup plus élevé que les élèves à l’heure. Rappelons que, dans PISA, et surtout pour les questions ouvertes, ils s’abstiennent beaucoup plus souvent de répondre que les élèves « à l’heure ». Encore une fois, il faut envisager la conjonction de plusieurs pistes d’explication des différences.

Le statut de l’écrit, chez nos élèves, doit être fortement interrogé. Les évalua- tions nationales françaises ont depuis longtemps relevé la baisse du taux de réponses dès lors qu’il faut « écrire ». Peut-on espérer que l’appropriation progres- sive des nouveaux programmes par les enseignants favorisera davantage le lien lecture - écriture dans les apprentissages langagiers, et dès lors une moindre insé- curité pour produire une réponse écrite que celle des élèves nés plus tôt, en 1984 (PISA 2000) ou en 1990 (PIRLS) ?

Après ce détour sur ce phénomène particulier à la France de production de non-réponses, revenons à la dimension Réfléchir.

f. Réfléchir, une dimension qui interroge

Au plan international, cette dimension a été revisitée tant ses résultats ont fait l’objet de discussions. Le consortium responsable de PISA a classé a posteriori les vingt-neuf items qui composent cette dimension et des analyses ont conduit à s’interroger sur la sphère linguistique.

g. Variété des items

Les items de Réfléchir peuvent se ventiler en quatre catégories (Mendelovits, 2003) :

– faire des hypothèses ou expliquer le contenu d’un texte (sept items). En d’autres termes, comment expliquer ce phénomène, comment peut-on justifier un argument ou une position du texte ?

31.indb 125

REPÈRES N° 31/2005 M. RÉMOND

126

– donner une opinion personnelle (6 items). En d’autres termes, que pense l’élève de la solution ou de la fin du texte, comment peut-on comparer son expérience à celle qui est décrite dans le texte ?

– identifier les caractéristiques formelles du texte (huit items). En d’autres termes, que signifie telle caractéristique du texte ? Quel lien logique ou structurel y-a-t-il entre deux parties d’un texte ?

– faire une évaluation critique (huit items). Comment une partie du texte contribue-t-elle à son ensemble ? Dans quelle mesure une partie du texte, ou son ensemble, est-elle efficace ?

Les trois premières catégories de ce classement donnent lieu à des résul- tats proches : environ 55 % pour « faire des hypothèses / expliquer le contenu du texte », environ 60 % pour « donner une opinion personnelle » et « identifier les caractéristiques formelles du texte ». La catégorie « évaluation critique » obtient moins de 40 % de bonnes réponses en France. C’est la plus faiblement réussie dans les pays francophones, mais aussi dans les pays anglophones. De toutes les tâches, elle est celle qui fait appel aux opérations cognitives les plus complexes. h. Sphère linguistique

Dans cinq pays, les performances pour Réfléchir sont meilleures que pour S’informer. Quatre d’entre eux étant hispanophones ou lusophones, l’OCDE suggère « un effet linguistique, culturel ou pédagogique » (OCDE, 2003, p. 98). Pour d’autres résultats aussi, des profils de répartition des résultats « semblent aller de pair avec des groupes linguistiques différents » (OCDE, ibid.). Rocher (2004) ajoute « La proximité des profils de réussite des pays coïncide en général avec leur proximité géographique, culturelle ou linguistique » et l’OCDE « les pays où l’anglais n’est pas la langue d’enseignement présentent un tout autre profil… ».

Malgré la méthodologie extrêmement contrôlée de PISA, une des plus fiables, il n’en reste pas moins vrai que des biais subsistent (Rocher, ibid.), ce que l’OCDE admet difficilement en affirmant que des pratiques pédagogiques différentes ont conduit à privilégier certains aspects de la lecture au détriment d’autres, ce qui explique les différences évoquées ci-dessus. Ramenée au cas des pays évoqués plus haut, situés dans des hémisphères ou sur des continents différents, sans la réfuter, l’explication paraît insuffisante et c’est un réseau de facteurs qu’il faudrait explorer. Dans le cas français, la médiocre réussite à Réfléchir ne doit pas inquiéter puisqu’elle ne répond pas à notre enseignement, mais on est en droit de se demander s’il faut prendre des mesures pour l’intégrer à notre enseignement. Avant cela, il faut revenir au concept flou qu’est « le style » dans PISA.

i. Question de style

Évaluer le style ne revient pas à utiliser un savoir transmis par le cours de français, mais à analyser, critiquer, s’approprier le texte. PISA apprécie la pertinence du discours que les élèves sont susceptibles de construire en tenant compte à la fois du message et de son destinataire. Dans l’exercice Le cadeau9,

9. Les exercices Grippe et Le cadeau sont présentés dans leur intégralité dans Bourny et al. (2002).

31.indb 126

Regards croisés sur les évaluations institutionnelles

127 seul texte littéraire de PISA 2000, l’une des questions nécessite d’observer le vocabulaire employé afin de dégager comment l’auteur introduit l’un des deux personnages, un puma. Sans entrer dans le détail, deux thèmes s’entrecroisent dans cette nouvelle : la peur et la compassion de la femme, l’autre personnage. Les références à l’atmosphère de suspense et de mystère ne sont pas valorisées. Une seule dimension interprétative est privilégiée tout au long des items, celle de la compassion, et certains jeunes français ont produit des réponses pertinentes (à nos yeux) autour de la peur, irrecevables selon le codage prévu, notamment à la question portant sur la chute du récit. Comme le fait remarquer Bain (2003, p. 65), cette « question nous semble pointer maladroitement un aspect effectivement crucial de ce type de nouvelle, en restant au niveau sémantique. Parler dans les critères de correction de touche finale apportée au thème du récit » nous apparait une façon peu adéquate de faire allusion à la chute… ».

Le support fondant l’exercice « Grippe » s’adresse à des salariés pour les inciter à se faire vacciner. La mise en forme, deux dessins et un slogan pour clore le communiqué donnent un caractère attractif à ce document qui se présentait à l’origine sous la forme d’un dépliant. Une question cible le « style ». La tâche requise nécessite d’évaluer la pertinence de la composition du texte et son adéquation au public visé. Repérer que le texte a été mis en page de manière attrayante et que sa tonalité est encourageante constituent une réponse correcte. L’essentiel relève de la présentation du communiqué (illustrations, typographie, mise en gras, sous-titres), ce qui ne relève pas du style, au moins, dans notre culture scolaire ; aussi le terme « style » employé dans la question ne peut que déstabiliser nos élèves.

Les questions s’appuyant sur le style ont-elles le même sens pour un fran- cophone et un anglophone, car manifestement, dans ces langues de référence, le mot « style » n’évoque pas le même concept (Rémond, 2004).

j. Équivalence des tâches

Que ce soit sur la dimension Réfléchir ou sur les autres, nous nous interro- geons sur la charge cognitive des élèves selon les langues comme nous l’avons mentionné dans l’exemple Graffiti. Adams et Wu (2002) ont montré que les procé- dures de traduction allongent, en moyenne, les textes passant de l’anglais au français de 12 % de mots et de 19 % de caractères.

Les élèves des différents pays ont-ils effectué une tâche impliquant la même charge cognitive et donc des tâches équivalentes ? Le degré de lisibilité du matériel n’est probablement pas toujours comparable ; les énoncés de certaines questions laissent penser que la traduction a accru leur difficulté. Le matériel a été traduit de manière linéaire donnant souvent l’impression d’une énonciation non naturelle. Cette forme en parallèle (calque en français de la structuration des énoncés en anglais) a parfois compromis la mise en valeur des questions telle que la méthodologie de l’évaluation l’exige. Dans ce cas, y a-t-il équivalence des formes d’énoncés et de la demande cognitive faite aux jeunes ? Évalue-t-on les mêmes compétences selon la langue dans laquelle se passe la passation ? Cette question devrait faire l’objet de travaux interculturels. Enfin, les consignes de codage ne gèrent pas toujours les subtilités de la langue vers laquelle elles ont été traduites (Rémond, 2001).

31.indb 127

REPÈRES N° 31/2005 M. RÉMOND

128

Les trois types de tâche ne peuvent pas être considérées comme totalement séparées et indépendantes : des chevauchements existent entre elles. Le ratta- chement d’une tâche à un type plutôt qu’à un autre s’est souvent fait sur la base d’une discrimination subtile. Quand une tâche se situe sur une quasi frontière, lorsque les experts ont longuement discuté avant de l’affecter à l’une des deux tâches, le phénomène de traduction vers une autre langue ne risque-t-il pas de la faire basculer vers l’autre tâche ?

k. Quelques mises en perspectives

Dans le document N° 31, 2005 (nouvelle série) : L'évaluation en didactique du français : résurgence d'une problématique (Page 122-128)