Nous constatons que ces valeurs de consistance in terne varient entre 67 pour le sous-test M-, et 38 pour le

sous-test B-,. Plusieurs facteurs concourent à expliquer la

faiblesse relative de ces consistances internes. En ce qui

nous concerne, le nombre limité de questions, soit treize

questions par sous -test, peut constituer une explication

valable. En appliquant la formule de Spearman-Brown (Ebel,

p. 315) utilisée pour estimer la précision d ' un test dont

la longueur est multipliée par un facteur "k", nous remarquons d'après les données du Tableau IV que le sous-test B, devrait être allongé de quinze fois sa longueur initiale c'est-à-dire contenir 195 questions équivalentes pour obtenir une consistance interne acceptable de .90. Si l'on fait subir le même traitement au sous-test B2, il faudrait alors

l'allonger de 13 fois sa longueur initiale pour obtenir une consistance interne idéale de .90. Dans 1 ' éventualité de reprise de la même étude, il faudrait sans doute demander aux constructeurs de tests un plus grand nombre de questions afin d'en améliorer la consistance interne.

Un autre facteur susceptible d'influencer la valeur de la consistance interne réside dans le degré de difficul- té des questions d'un test. La consistance interne est in- fluencée par le degré de difficulté des questions dans le sens d'une diminution ou d'une sous- estimation lorsque les indices de difficulté de ces questions s ' écartent du point milieu .50 (Gulliksen, 1950, chap. 16).

LE DEGRE DE DIFFICULTE DES ITEM

Au niveau des pourcentages moyens de réussites, il ne semble pas y avoir de fluctuations considérables à l'in- térieur de chaque échantillon. Ces valeurs sont rapportées dans le Tableau V.

TABLEAU V

Pourcentages de réussites pour chaque question de chacun des sous -tests à l'intérieur de chaque échantillon

Pourcentages de réussites Numéros des objectifs stimuli Premier échantillon Mx ^ C Deuxième échantillon Bl B2 C 1 0.67 0,38 0.67 0.47 0.67 0.90 2 0.56 0.42 0.47 0.96 0.92 0.61 3 0.49 0.31 0.58 _0.55 _0.35 0.61 4 0.47 0.31 0.64 0.69 0.80 0.55 5 0.29 0.78 0.93 0.63 0.37 1.00 6 0.80 0.51 0.24 0.73 0.84 0.63 7 0.80 0.18 0.73 0.82 0.67 0.92 8 0.53 0.18 0.84 0.31 0.84 0.90 9 0.78 0.62 0.53 0.73 0.80 0.86 10 0.60 0.53 0.60 0.96 0.51 0.53 11 0.27 0.60 0.20 0.26 0.78 0.33 12 0.56 0.38 0.42 0.92 0.57 0.84 13 0.24 0.13 0.29 0.80 0.98 0.16 Pourcen- tages moyens de réus- sites 0.54 0.41 0.55 0.679 0.70 0.68

Pour les questions formulées à partir d ' objectifs conformes à la taxonomie de Bloom, on constate une grande homogénéité. Les pourcentages moyens de réussites varient de .679 à .700. Pour l'autre échantillon, 1' homogénéité demeure encore assez bonne, les pourcentages moyens de réus- sites variant de .41 a .55» Cependant, cette homogénéité ne se reflète pas au niveau des pourcentages de réussites pour chaque question. Nous remarquons, dans certains cas, des fluctuations considérables pour des questions élaborées à partir d ' un même objectif et ce, pour les deux échantil- lons. Ainsi, pour les questions construites à partir de "l'objectif stimulus 13"» les sous - tests B, et B2 conser-

vent respectivement des pourcentages de réussites de .80 et .98, alors que le test critère a un pourcentage de réussites de .16. Dans le cas de "l'objectif stimulus 7"> nous re- trouvons une situation analogue. Le sous-test M, a un pour-

centage de réussites de .80, alors que cette valeur est de .18 dans le cas du test critère.

Ces écarts en termes de pourcentages de réussites contribuent à expliquer, en partie, les faiblesses relati- ves des consistances internes obtenues. En effet, les valeurs de consistances internes obtenues par la méthode de Kuder-Richardson (Ebel, p. 362) sont affectées parle niveau moyen des indices de difficultés des questions. Deux ensem-

blés de questions qui présentent la même somme de covarian- ces d'item, ce qui, théoriquement implique une même consistance interne de contenu, ces deux ensembles de questions peuvent avoir un degré de consistance interne différent. Pour illustrer cet énoncé, considérons un ensemble de questions ayant des pourcentages de réussites variant de .60 à

.90, et un second ensemble de questions ayant des pourcentages de réussites variant de .40 à .60; ce dernier obtien- dra une consistance interne supérieure au premier. La formule Kuder-Richardson fournit une valeur maximum dans le cas où le pourcentage de réussites est de l'ordre de .50. Ce qui précède, non seulement contribue à expliquer la faiblesse relative des consistances internes obtenues dans cette étu- de, mais aussi implique que 1 ' on peut difficilement comparer les consistances internes de deux échantillons diffé- rents comme c'est le cas ici.

LE DEGRE D'ATTRACTION DES LEURRES

Un autre facteur important à considérer dans 1 ' explication des variations d'indices de difficulté est le de- gré d ' attraction des leurres qui ont été conçus par les examinateurs. Chaque leurre d'une question devrait être choisi par une même proportion du nombre de répondants qui n'ont pas réussi cette question. Puisque dans cette étude

chaque question devait comporter trois leurres, chaque leurre aurait dû recevoir un tiers du nombre total de répondants qui ont échoué une question.

Le Tableau VI nous renseigne, pour chacune des questions associée à un objectif stimulus et rédigée par un examinateur particulier (M-,, Mg, B,, B2, C), sur le nombre de

leurres qui s'écartent de ce degré d ' attraction théorique- ment attendu.

TABLEAU VI

Nombre de leurres qui ont un degré d'attraction inférieur au tiers du nombre d'échecs

à chaque question (1) Nombre de leurres Numéros des objectifs stimuli Premier Ml échantillon M, C Deuxième Bl échantillon B2 C 1 2 0 1 2 1 2 2 2 1 2 2 1 1 3 0 2 2 2 0 2 4 1 2 1 1 2 0 5 2 2 2 2 1 0 6 1 2 2 1 1 2 7 2 1 1 1 1 2 8 1 2 1 1 2 1 9 1 2 2 2 1 1 10 2 1 2 2 1 1 11 0 1 1 2 0 2 12 1 1 2 1 2 2 13 1 1 2 1 2 1

Une vue d'ensemble du Tableau VI premet, en premier lieu, de constater que le nombre de leurres qui fonctionnent varie d'un examinateur à l'autre. Par exemple, pour "l'ob-

jectif stimulus 3"» chacun des trois leurres reçoit la fa- veur d'environ un tiers des répondants qui ont échoué cette question du sous-test M,, par contre, deux leurres dans les question du sous-test M2 et du test critère ne réussissent pas à attirer au moins un tiers des répondants qui ont raté cette question. Cette dernière observation est applicable pour l'ensemble des questions de chaque échantillon. D'ailleurs, ces fluctuations s'observent non seulement entre les questions répondues par un échantillon donné, mais aussi d'un échantillon à l'autre.

Ce petit nombre de leurres qui a reçu un pourcentage acceptable d ' attraction fait, qu'en pratique, le nombre d'alternatives accompagnant la bonne réponse a varié d'une question à l'autre. Nous sommes ici, en face d'un des as- pects les plus criticables de la méthodologie utilisée pour évaluer la "communicabilité" des objectifs, au moyen de la construction d'examens objectifs de rendement par des examinateurs différents. En effet, en supposant que deux examinateurs aient interprété d'une manière univoque un objectif stimulus qui leur a été communiqué, les questions objec- tives qu'ils rédigeront, présenteront fort probablement des différences de qualité dans le degré d'attraction des leur-

res, différences qui sont inévitables et dont l'effet est imprévisible sur le degré de difficulté des questions.

LE DEGRE D'EQUIVALENCE ENTRE LES DEUX SOUS-ECHANTILLONS Y a - t - i l équivalence de rendement entre les deux sous-échantillons considérés dans cette étude. Cette équi- valence devrait se traduire par des moyennes semblables à une mesure commune. Rappelons que parmi les divers sous- tests utilisés, les treize questions constituant le test critère ont été répondues par les sujets provenant des deux échantillons. Les moyennes sont rapportées dans le Tableau suivant.

TABLEAU VII

Moyennes au test critère pour chacun des échantillons et rapport critique

Premier échantillon Deuxième échantillon

Moyennes 7.15 8.83 Rapport critique de la différence des moyennes^- tique de la -3 «JC&A différence 3*8 5** "•"Niveau de signification: ** p « .01

Le Tableau VII rapporte, pour le premier et le second ^hantillon, des moyennes respectives de 7.15 et 8.83. Le rapport critique de 3.85» significatif à .01, nous permet de rejeter l'hypothèse que les deux échantillons pro- viennent d'une même population. Cette conjecture a probablement influencé certains résultats notamment les moyennes et les consistances internes des sous - tests et indique la faiblesse du scheme expérimental quia été utilisé, faiblesse déjà soulignée au niveau des limitations de cette étude.

LA QUALITE SEMANTIQUE DE L'ENONCE PRINCIPAL ET DES ALTERNATIVES PROPOSEES

La qualité sémantique constitue un facteur impor- tant dans l'élaboration d'une question d'examen. Une ques- tion d ' examen établit une communication entre une personne qui joue le rôle de 1 ' examinateur et un sujet qui joue le rôle de 1 ' examiné. Ce dernier doit saisir parfaitement l'intention de 1 ' examinateur lorsqu ' il a formulé la ques- tion. On ne peut nier 1 ' importance que prend un tel fac- teur dû au fait que chacun des sous - tests a été construit par des personnes différentes. On pouvait difficilement espérer avoir des questions de bonne qualité chez les pro- fesseurs qui ont joué le rôle d' examinateurs dans cette é- tude.

L'HOMOGENEITE DU CONTENU POUR. CHAQUE OBJECTIF

A ce facteur de qualité sémantique est reliée l'ho- mogénéité du contenu pour chacun des objectifs. En effet, pour un même objectif, on pouvait s'attendre à ce que les examinateurs construisent des questions semblables du moins quant au contenu. Or, une analyse très sommaire du contenu manipulé dans chaque question , nous permet d ' observer qu' il n'y a pas unanimité chez les examinateurs à ce point de vue. Sur 26 questions construites par deux professeurs conformément aux deux premiers critères de Mager, 18 seulement entraînent un consensus quant au contenu. Par contre, cette unanimité est encore plus faible pour les questions construites à partir d'objectifs fidèles à la taxonomie de Bloom : 10 questions sur 26 portent sur un contenu

conforme à celui suggéré par 1' objectif. Ces observations nous permettent de noter que non seulement le comportement suggéré par l'objectif mais aussi le contenu peuvent être des facteurs qui influencent l'équivalence entre des instruments de mesure.

DISCUSSION

Il appert donc que la construction d'instruments de mesure par des personnes différentes, semble impliquer plusieurs facteurs susceptibles d ' influencer le degré d'équi- valence entre ces instruments de mesure.

Ainsi, au niveau des indices de difficultés, nous constatons un nombre imposant de fluctuations sur les questions élaborées à partir d'un même objectif. D'ailleurs la faiblesse relative des consistances internes des sous-tests s'explique en partie par ces; fluctuations; le petit nombre de questions et le fait que les deux échantillons ne pro- viennent pas d'une même population jouent également dans le même sens. Il ne faudrait pas nier non plus que les pour-

centages d'attraction des leurres ont influencer les pourcentages de réussites. Cependant, ce phénomène est difficilement contrôlable dans le contexte où des personnes différen- tes ont à construire des questions isolément. D'ailleurs, on retrouve la même difficulté en ce qui concerne la quali- té sémantique des questions. Ajoutons à cela que les constructeurs de tests n'ont pas toujours été fidèles au contenu suggéré par l'objectif.

Dans une recherche comme la nôtre, il serait utopi- que d'espérer exercer un contrôle parfait sur les facteurs

pouvant influencer les résultats escomptés de sorte que même si les objectifs étaient formulés adéquatement, il faudrait s'attendre encore à ce que les instruments de mesure construits à partir de ces objectifs ne soient pas équi- valents entre eux.

Les données de cette étude ne nous ont pas permis de vérifier l'hypothèse fondamentale soutenant que des examens préparés par des personnes différentes à partir d'objectifs conformes aux deux premiers critères de Mager sont plus équivalents entre eux que ceux construits à partir d'objectifs empruntés aux catégories de la taxonomie de Bloom. Pour les tests construits selon les critères de Ma- ger, nous nous attendions à ce que les moyennes et les écarts- types soient plus semblables entre eux, à ce que la corré- lation soit plus élevée que pour les tests construits selon les catégories de la taxonomie de Bloom. A première vue, il semble que les limitations que nous avons dû nous imposer au niveau du scheme expérimental et parmi lesquelles figu-

rent le nombre restreint de sujets d'une part et 1'impossi- bilité d'administrer les sous-tests à tous les sujets d'autre part, ont largement influencé les résultats obtenus.

Même si nous n ' avons pas réussi à établir que le fait de formuler des objectifs en termes spécifiques a d'une manière consistante, une influence positive sur le rendement scolaire de l'étudiant, nous nous sommes permis une analyse sommaire des facteurs susceptibles d'influencer l'équivalen- ce d ' instruments de mesure construits par des personnes différentes. Ces facteurs pourraient être une explication

plausible à l'écart entre les résultats attendus et les ré- sultats obtenus. Cette analyse nous a permis les observations suivantes:

1 - une consistance relativement faible pour chacun des sous-tests;

2 - une certaine disparité entre les indices de diffi- cultés des questions issues d'un même objectif, c'est à-dire pour des questions parallèles;

3 - un degré d ' attraction hétérogène des leurres pour des questions parallèles;

4 - des échantillons de sujets non équivalents quant à la compétence reflétée par le test critère;

5 - la qualité sémantique des questions pouvant varier d'une personne à l'autre;

6 - l'hétérogénéité des questions parallèles quant au contenu suggéré par les objectifs stimuli.

Ces différentes observations que nous avons tirées de nos résultats permettraient d'améliorer la méthodologie à suivre dans une recherche comme la nôtre. Si une telle étude était reprise, nous ferions les suggestions suivantes:

1 - utiliser un plus grand nombre de sujets;

2 - administrer tous les sous - tests à tous les sujets afin d'obtenir un scheme expérimental plus rigoureux 3 - augmenter le nombre de questions pour chacun des sous-tests afin d'assurer une plus grande stabilité des résultats;

4 - contrôler la qualité sémantique des questions en les faisant reviser par des juges;

5 - augmenter le nombre de leurres par question à faire rédiger pour pallier à l'influence du degré d'attraction des leurres sur la difficulté des questions.

6 - faire en sorte que chaque question issue d'un même objectif porte sur le contenu suggéré par l'objectif;

7 - augmenter le nombre de personnes jouant le rôle de rédacteurs de questions à partir d'objectifs;

Comme nous l'avons suggéré au moment où nous avons établi les limites de notre recherche au chapitre II, le consensus obtenu par des personnes qui utilisent des objectifs formulés adéquatement, peut revêtir différentes mani- festations. En ce qui nous concerne, nous avons opté pour l'équivalence entre des instruments de mesure issus d'objectifs semblables. Il serait, sans doute, intéressant de comparer nos résultats avec ceux obtenus par d'autres pro- cédés, comme le degré d ' attraction avec lequel les juges classifient des énoncés d'objectifs selon un scheme quel- conque de classification, le degré d'accord avec lequel des juges associent des situations concrètes d'examen à ces objectifs, etc. De telles recherches permettraient d'élimi- ner certaines limitations méthodologiques imposées par notre étude et ainsi d'évaluer, d'une manière plus rigoureuse, le degré d'accord entre des personnes exposées à certains types de formulation d'objectifs.

DETERMINEE D'OBJECTIFS

La tâche qui vous est demandée consiste à construire, pour chacun des objectifs, une question d*examer}. "IL EST TRES IMPORTANT QUE VOTRE QUESTION MESURE LE PLUS ETROI-

TEMENT POSSIBLE L'OBJECTIF POURSUIVI.» Vous aurez donc à construire "13" questions, soit une question par objectif.

Vous devez construire des questions à choix multi- ples (quatre alternatives). Parmi les quatre alternatives, trois sont des leurres et la quatrième est la bonne réponse. Assurez-vous que votre question soit de bonne qualité sur le plan technique. Que les énoncés soient clairs et que les leurres soient attrayants; QUE TOUTE AMBIGUÏTE SOIT AINSI EVITEE!

Peut-être, aurez - vous la tentation d'utiliser des questions déjà formulées. Il faudra alors vous assurer que la question soit pertinente et selon 1 ' objectif poursuivi; que sa qualité technique soit irréprochable. Pour plus d'ef- ficacité, il vaudrait mieux que vous construisiiez vous-même la question.

En somme, vous avez en main trois documents:

a) Le DOCUMENT "A" qui vous donne les directives à suivre.

b) Le DOCUMENT "B" qui vous sert de brouillon. c) Le DOCUMENT "C" qui est à remettre. Nous appré-

cierons beaucoup que vos questions soient dacty- lographiées, une question par page, tel que spé- cifié dans le DOCUMENT "C".

S'il se produit des problèmes majeurs, vous pourrez toujours me téléphoner aux numéros indiqués sur la page frontispice. Nous passerons à la date convenue pour reviser et ramasser le travail. Nous procéderons delà même fa- çon pour l'administration d'un test de chimie à une trentai- ne de vos élèves.

1 - L'étudiant doit saisir les relations entre le numéro atomique des éléments et la combinaison chimique des éléments.

2 - L'étudiant doit être capable d'interpréter les informations contenues dans la classification périodique telles que l'activité chimique des éléments, la valence des éléments, 1'électronégativité des éléments, etc. 3 - L'étudiant doit être capable d'analyser les relations

entre le numéro atomique, la masse atomique et le groupe auquel appartient cet élément.

4 - L'étudiant doit être en mesure d'appliquer les principes sur lesquels repose la classification périodique à la structure électronique des éléments.

5 - L'étudiant doit être capable de saisir l'ordre dans lequel les éléments ont été classifies dans le tableau périodique moderne et celui de Mendeleev.

6 - L'étudiant doit être familier avec les conventions de la classification périodique.

7 - L'étudiant doit reconnaître les termes et les concepts propres à la classification périodique.

8 - L'étudiant doit reconnaître les principes qui sous-ten- dent la construction de la classification périodique des éléments.

9 L'étudiant doit reconnaître les métaux de non métaux.

10 L'étudiant doit connaître les propriétés physiques et chimiques des éléments.

11 L'étudiant doit être capable de transposer en termes plus modernes les noms des éléments de la classifica tion périodique de Mendeleev.

12 L'étudiant doit savoir à quel groupe ou à quelle pério de appartiennent les éléments les plus connus.

13 L'étudiant doit être capable d'appliquer dans la clas sification périodique moderne les principes utilisés par Mendeleev dans sa propre classification.

LISTE D'OBJECTIFS DE FORME "OM"

1 - La classification périodique étant fournie à l'étudiant, ce dernier doit être capable de combiner chimiquement

2 - Devant une enumeration d'éléments, l'étudiant doit être capable de désigner celui qui possède le plus ou le moins telle caractéristique comme l'activité chimique des éléments, la valence des éléments, 1'électronégati- vité, etc.

3 - A partir de la position relative d'un élément dans la classification périodique quant à son numéro atomique, quant à sa masse atomique et quant au groupe auquel il appartient, l'étudiant doit être capable de déduire de quel élément il s'agit.

4 - A partir des informations contenues dans la classification périodique moderne, 1'étudiant doit être capable de déduire le nombre de protons et d'électrons.

5 - A partir du numéro atomique et de la masse atomique d'é- léments non existants, 1 ' étudiant doit être capable d'ordonner ces éléments, à la fois, dans la classification de Mendeleev et dans la classification moderne. 6 - La classification périodique moderne étant fournie à

l'étudiant, ce dernier doit être capable d'en identifier les conventions.

7 - A partir de plusieurs définitions d'un terme propre à la classification périodique, l'étudiant doit être capable d'identifier la définition qui convient à ce terme.

8 - Une série de principes étant fournis à l'étudiant, ce dernier doit être capable d'identifier celui sur lequel repose la classification de Mendeleev ou la classification moderne.

9 - Devant une série d'éléments, l'étudiant doit être capable de différencier les métaux des non métaux.

10 - Une propriété physique ou chimique d'un élément étant fournie à l'étudiant, ce dernier doit être capable d'i- dentifier, parmi plusieurs éléments, celui auquel elle

convient.

11 - Le nom d'un élément inconnu de la classification de Men- deleev étant fourni à l'étudiant, ce dernier doit être capable de le nommer en langage moderne tel que suggéré par la classification périodique moderne.

12 - Le nom d'un élément étant fourni à l'étudiant, ce dernier doit être capable d'identifier à quel groupe ap-

Dans le document L'effet du degré de spécificité des objectifs pédagogiques sur la construction de tests de rendement scolaire (Page 45-129)