• Aucun résultat trouvé

L’étude globale du contenu consiste à étudier l’ensemble des items de l’évaluation ; les questions de validité se posent alors sur l’ensemble d’un domaine évalué (pour nous, la numération décimale, le calcul et la résolution de problèmes arithmétique avec des nombres entiers) et portent sur la sélection des tâches. Nous estimons que, d’un point de vue épistémo-didactique, les tâches d’une évaluation couvrent un domaine lorsque :

- tous les types de tâches définis dans l’OM de référence (et figurant dans les programmes si l’évaluation s’appuie sur eux) sont présents et que les conditions sont requises pour que la technique visée par la tâche puisse la résoudre,

- différents niveaux de convocation des types de tâches sont mis en jeu, - les variables didactiques prennent des valeurs variées.

Nous explicitons ci-après la façon dont nous appréhendons ces critères en lien avec l’analyse a priori et avec la définition de la praxéologie de référence, mais nous précisons d’abord qu’il est difficile de remplir toutes ces conditions à la fois. En effet, le temps limité imparti à la passation des épreuves

167 impose, quelque soit l’évaluation considérée, un échantillon représentatif des types de tâches ; c’est pourquoi nous abordons la question de la représentativité des tâches au fil de la description de ces trois critères.

I.2.1 Variété des types de tâches et nature des techniques

Du point de vue de la conception de l’évaluation comme de son analyse, il est assez aisé, une fois l’analyse a priori réalisée, de contrôler si les tâches sélectionnées permettent d’évaluer l’ensemble des savoirs devant l’être que ce soit au regard des programmes, qu’au regard de l’OM de référence (ou d’un cadre de l’évaluation qui ne s’appuierait pas sur une approche curriculaire, mais qui listerait des savoirs à évaluer). Mettre en perspective la liste des tâches retenues avec celle des savoirs à évaluer permet, au regard de l’analyse a priori, de repérer d’éventuels manques ou redondances, et apporte, une première preuve de validité.

La question que nous posons ici ne porte pas seulement sur la concordance entre les tâches proposées et les savoirs à évaluer, elle interroge aussi la sélection des tâches pour qu’elles soient représentatives du domaine selon les types de tâches et selon la nature des techniques en jeu. Pour y répondre, nous nous appuyons sur la définition de la praxéologie de référence en lien avec des objectifs d’évaluation et dégageons trois principaux critères. L’ensemble des tâches sélectionnées doit alors contenir au moins :

- une tâche appartenant à chacune des OML ;

- une tâche permettant d’évaluer des techniques qui convoquent des éléments technologiques intervenant dans d’autres types de tâches. Par exemple, en numération, il est nécessaire que des tâches évaluent τpos de façon isolée. Plus généralement, la maitrise de certaines techniques relatives à certains types de tâches est nécessaire pour que leur mise en œuvre dans d’autres types de tâches n’empêche pas leur résolution. En procédant de cette façon, il est alors possible de repérer d’éventuels points de rupture et d’expliciter certains échecs sur des tâches données ;

- plusieurs tâches pouvant être résolues avec des techniques de natures différentes pour étudier une éventuelle progression et repérer, là encore, des technologies dominantes ou d’éventuels points de rupture.

Prendre en compte, dans la sélection des tâches, les techniques qui permettent de les résoudre est important pour deux raisons. D’une part, c’est en s’appuyant sur les techniques et sur les éléments technologico-théoriques définis à partir de l’OM de référence qu’il est possible d’interroger les praxéologies apprises au regard de celles à enseigner : cet objectif coïncide alors parfaitement avec celui attribué aux évaluations bilans. D’autre part, si on se place cette fois dans la perspective d’une évaluation diagnostique, c’est en repérant, dans les praxéologies apprises, des techniques inadaptées ou erronées et en inférant les technologies absentes, ou évanescentes dans l’enseignement, qu’il est possible de proposer un enseignement adapté aux besoins d’apprentissage de l’élève. Nous comprenons alors que la sélection des tâches de l’évaluation, pour qu’elles soient représentatives du domaine évalué, doit prendre en compte les techniques et les éléments technologico-théoriques correspondants.

I.2.2 Niveau d’intervention des praxéologies

Nous nous plaçons ici dans le cadre de l’approche anthropologique, mais nous rappelons que les niveaux de convocation des types de tâches sont adaptés des niveaux de mise en fonctionnement des connaissances et que les expressions « r-convoquée » et « t-convoquée » (Castela 2008)

168 correspondent respectivement aux niveaux de mise en fonctionnement des connaissances « disponible » et « mobilisable » pour Robert (1998).

Nous poursuivons dans ce paragraphe la réflexion menée précédemment sur les techniques de résolution d’une tâche. S’il est nécessaire que l’évaluation contienne des tâches correspondant à des applications directes de la technique, il l’est tout autant de proposer des tâches faisant intervenir des praxéologies à un niveau « t-convoqué » ou « r-convoqué » avec ou sans choix de technique (Castela 2008) : en effet, deux tâches peuvent faire intervenir une même OM, tout en demandant à l’élève une activité différente et par conséquent, elles ne permettent pas d’évaluer le savoir dans les mêmes conditions.

Plus spécifiquement dans notre travail portant sur l’évaluation des apprentissages en fin d’école en partie à travers des évaluations-bilans, il est intéressant, comme Castela (2008) le fait, que nous couplions le niveau de convocation du type de tâche avec le moment où le savoir a été enseigné :

« Le niveau d’intervention de OM0 dans une tâche donnée est décrit par un couple dont

chaque élément peut prendre trois valeurs :

- OM t-convoquée, OM r-convoquée sans choix de technique, OM r-convoquée avec choix de technique (la configuration t-convoquée avec choix de technique est impossible par définition) - objets anciens, d’enseignement récent, en cours d’enseignement. » Castela (2008, p. 154)

Dans notre travail, nous ne considérons que des objets de savoir ancien et d’enseignement récent (les premiers étant définis comme n’étant plus enjeux d’apprentissage et les seconds correspondant à des savoirs institutionnalisés, mais à consolider). Nous écartons les objets de savoir en cours d’enseignement soit totalement nouveaux, soit en cours d’institutionnalisation puisque nous nous intéressons à l’analyse d’évaluations bilans proposées à la fin du processus d’enseignement ou à des évaluations diagnostiques qui se situent avant le processus d’enseignement, mais qui portent sur des savoirs déjà institutionnalisés.

Six couples peuvent alors être définis et correspondent à six niveaux d’intervention des types de tâche que nous hiérarchisons d’un niveau 1 (OM t-convoquée sur un objet de savoir ancien) à un niveau 6 (OM r-convoquée avec choix de technique sur un savoir en cours d’enseignement) ; nous ajoutons un niveau 0, correspondant aux applications directes de la technique à des objets anciens (Castela 2008). Nous obtenons donc sept couples dont les valeurs sont définies par l’analyse a priori. Le contenu de l’évaluation, pour qu’il soit valide, devrait alors avoir des tâches représentant un même type de tâches mais convoqué à différents niveaux. Il parait néanmoins difficile de pouvoir balayer l’ensemble des niveaux pour une même OM puisque cela conduirait à proposer de multiples tâches dans l’évaluation. En revanche, il serait préférable de ne pas avoir, pour une même OM, trop de tâches qui la convoquent à des niveaux d’intervention « techniques » et aucune qui la convoque à des niveaux d’intervention plus élevés. Si les sept niveaux ne peuvent être représentés, il serait intéressant d’avoir au moins une tâche relevant du niveau le plus pas (niveau technique) pour s’assurer de la maîtrise du savoir en jeu dans des situations d’application directe et une ou plusieurs tâches relevant des niveaux d’intervention plus élevés, sans nécessairement que le niveau 6 (OM r- convoquée avec choix de technique sur un objet de savoir récent) ne soit représenté systématiquement.

I.2.3 Variété des valeurs des variables didactiques

Les variables à prendre en compte sont différentes suivant le type de tâche que l’on considère. En plus des critères précédents, pouvoir proposer des valeurs différentes à une même variable

169 contribue à apporter des preuves de validité relatives au contenu. Il s’agit, par exemple, de proposer des types de représentation sémiotique différents (et pas seulement dans les tâches de conversion), des problèmes relevant de classes de problèmes différentes, des nombres de tailles variées qui conduisent à des opérations mettant en jeu des petites ou des grandes tables, etc.

A la différence des deux critères précédents, qui mènent à une sélection des tâches pour qu’elles soient adaptées aux critères, il s’agit plutôt ici de trouver un équilibre sur l’ensemble des valeurs des variables et d’éviter, pour une variable donnée, d’avoir une valeur sur-représentée alors que d’autres sont absentes. Par exemple, dans les tâches de calcul, de ne pas avoir uniquement des répertoires complexes en jeu ou des additions exclusivement sans retenue, ou encore de proposer des nombres dont l’écriture chiffrée contient des zéros, etc.

Pour conclure, d’un point de vue méthodologique, l’analyse de la validité de contenu selon la facette épistémo-didactique passe par l’analyse a priori de chacune des tâches et conduit à une étude à un double niveau : local et global (Grugeon-Allys & Grapin, 2015b). Des preuves de validité de contenu doivent être apportées relativement à chacun des items, mais aussi relativement au contenu du test dans son ensemble, à travers la représentativité des tâches proposées. Nous nous sommes placée ici dans le cas d’une analyse menée après la passation d’un test, mais une telle analyse devrait prendre place au moment de la conception des items.

II

FACETTE PSYCHO-DIDACTIQUE DE LA VALIDITÉ DE CONTENU

Comme dans la facette épistémo-didactique, l’analyse a priori de la tâche est aussi le point de départ de cette approche, mais elle est exploitée différemment ; il s’agit ici de prendre en compte les processus mis en jeu par les élèves pour produire une réponse et de les mettre en perspective des procédures de résolution déterminées lors de l’analyse a priori. Il s’agit également de les interpréter avec des caractéristiques de la tâche différentes de celles définies dans l’analyse épistémo- didactique. Ici, ce sont des variables extra-mathématiques telles que le format de la question, le contexte dans lequel est situé la tâche, la structure énonciative de l’énoncé (place de la question par exemple), les conditions de passation qui sont considérées. Ces variables peuvent être diverses, mais ont potentiellement un impact sur l’activité de l’élève lorsqu’il résout la tâche. A la différence de la facette épistémo-didactique de la validité de contenu, la spécificité de la validité psycho-didactique est « de porter sur les tâches (sur chaque item, chaque question) et non sur le test dans son ensemble » (Vantourout & Goasdoué 2014) ; c’est donc uniquement à un niveau local que nous nous situons.

Dans le cadre de la thèse, nous nous intéressons principalement à la nature du format de question : puisque dans les évaluations externes le format QCM est majoritairement utilisé, étudier les stratégies mises en œuvre par les élèves pour produire une réponse nous semble nécessaire pour décider de la validité psycho-didactique d’un item. Nous reprenons dans cette partie des résultats de travaux portant sur les QCM que nous enrichissons par des conclusions issues d’expérimentations menées antérieurement sur des items du bilan CEDRE.

Nous revenons aussi sur deux autres variables : d’abord, le contexte de la tâche puisqu’il impacte sur les processus de représentation entrant en jeu dans la modélisation lors de la résolution de problèmes et ensuite, nous nous intéressons au support sur lequel l’évaluation est menée (support informatique ou « papier-crayon »). Comme les évaluations sous la forme « papier-crayon » telles qu’elles existent actuellement tendent à évoluer vers des dispositifs exclusivement sur support

170 informatique, des questions sur la validité psycho-didactique des items se posent relativement à cette évolution.