Le degré de certitude et le degré d'information comme facteurs de discrimination dans un test objectif

(1)

ss

LE DEGRE DE CERTITUDE ET LE DEGRE D'INFORMATION

COMME FACTEURS DE DISCRIMINATION DANS UN TEST OBJECTIF

p a r

Jean-Jacques Bernier

Thèse présentée

à la Faculté des Sciences de l'Education

de l'Université Laval

en vue de l'obtention

de la

maîtrise en Sciences de l'Education

(2)

Nos remerciements les plus sincères s'adressent en premier lieu à M. Gérard Scallon, professeur ad-joint à la Faculté des Sciences de l'Education de

l'Université Laval, qui a assumé la direction de cette recherche avec une collaboration spontanée et un grand dévouement.

Nous sommes reconnaissant envers la Commission des Ecoles Catholiques de la ville de Québec et nous remercions sincèrement M. Jean-Guy Gélinas, directeur des études à l'école secondaire Jean-de-Brébeuf, de même que les membres du personnel enseignant de cette école qui ont favorisé la réalisation concrète de cette expérience.

(3)

TABLE DES MATIERES

PAGE

LISTE DES TABLEAUX V

LISTE DES FIGURES Vi

INTRODUCTION I

CHAPITRE

I. POSITION DU PROBLEME ET INVENTAIRE DE LA LITTERATURE . . 1

a) Position du problème 1

b) Inventaire de la littérature 8

1. La correction pour le hasard 9

2. La pondération différentielle des leurres. . 12

3. Modes de réponses 13

4. Procédés pour mesurer l'information

par-tielle 16

5. L'analyse des leurres 20

II. RATIONNEL DE L'ETUDE ET HYPOTHESES 22

a) Rationnel de l'étude 22

b) Hypothèses 24

III. DESCRIPTION DE L'EXPERIENCE ET PRESENTATION DES RESULTATS 27

a) Choix et description du test 27

b) Les modes de réponses et notation différentielle

des items 28

1. l e choix-libre 28

2. l ' é c h e l l e de certitude 29

3. l ' i d e n t i f i c a t i o n des leurres 30

c) Description de l'échantillonnage et de l ' e x p é r i

-mentation 32

i

(4)

CHAPITRE PAGE III. DESCRIPTION DE L'EXPERIENCE... (suite)

d) Présentation des résultats observés aux

prin-cipales variables 35 e) Propriétés métriques de l'instrument de mesure

utilisé 39 f) Vérification des hypothèses 43

g) Résumé et interprétation des résultats 53

IV. CONCLUSION 56

BIBLIOGRAPHIE 61 APPENDICE

I TEST DU CHOIX LIBRE 63 II TEST DE L'ECHELLE DE CERTITUDE 67

III TEST DE L'IDENTIFICATION DES LEURRES 71 IV INTERCORRELATION ENTRE LES SEPT VARIABLES DE L'ETUDE . . 76

(5)

V

LISTE DES TABLEAUX

TABLEAU PAGE

I. Description des six groupes de 1 échantillon, quant à

l'âge et quant aux niveau, après élimination 34 II. Moyennes et écart-types de chaque variable pour chacun

des groupes de sujets et pour l'échantillon total. . . 37 III. Analyse de la variance des résultats CD pour les

dif-férents sous-échantillons 38 IV. Répartition des questions de l'épreuve selon

diffé-rents niveaux de réussite 42 V. Moyennes, écarts-types, intercorrélations et rapports

critiques (R.C.) qui ont servi à l'épreuve de la

première hypothèse 44 VI. Corrélation du moment des produits entre le nombre

moyen de choix (au mode CL), le niveau moyen de cer-titude (au mode EC) et le résultat total à l'identi-fication des leurres pour les douze items présentant

le plus haut degré de discrimination 50 VII. Intercorrélations entre les deux mesures de la

certi-tude et la performance totale observée aux divers

(6)

VI

LISTE DES FIGURES

FIGURE PAGE

1. Distributions des modes de réponses aux trois sessions d'administration du test selon les six groupes de

sujets qui ont été constitués 33 2. Répartition des résultats CD pour l'échantillon total. . 41

(7)

INTRODUCTION

Parmi les propriétés métriques des instruments de mesure utilisés en éducation, la discrimination en est une des plus importantes. Pour un test à choix de réponses, la discrimination entre les sujets dépend en gran-de partie du système gran-de correction utilisé et est basée sur le nombre gran-de bonnes réponses de chacun. De nombreuses recherches ont tenté d'améliorer

la puissance discriminative de ce type de test généralement corrigé de fa-çon dichotomique. Ce type de correction consiste à accorder 1 point pour une bonne réponse à une question et 0 pour une mauvaise. Différentes tech-niques comme la correction pour le hasard, la correction différentielle et la sélection des items ont été expérimentées mais elles n'ont donné que des résultats inconsistants. Cependant, certains spécialistes de la mesure ont démontré que les sujets pouvaient être différenciés au-delà de la simple dichotomie succès-échec. Il semble que d'autres facteurs de discrimination ont pu être exploités. Nous nous sommes intéressés en particulier à deux de ces facteurs qui sont étroitement reliés au degré de connaissance des sujets; il s'agit du degré de certitude que les sujets peuvent éprouver à l'égard de leurs réponses et du degré d'information partielle, c'est-à-dire cette habileté à reconnaître des leurres comme mauvais en dépit de l'incapa-cité à reconnaître la bonne réponse. Dans la présente étude, nous nous propo-sons d'approfondir les conclusions de quelques recherches qui ont abordé l'étu-de l'étu-de ces l'étu-deux facteurs l'étu-de discrimination.

(8)

Chapitre I

POSITION DU PROBLEME ET INVENTAIRE DE LA LITTERATURE

Position du problème

Depuis déjà plusieurs années, l'examen de type "objectif" est de-venu l'outil le plus utilisé pour la mesure du rendement scolaire. Ce

genre d'examen se compose essentiellement d'un ensemble de questions ou problèmes très structurés auxquels le sujet examiné doit donnerune répon-se peu élaborée. Poussée à l'extrême, cette simplification de la réponrépon-se qui est attendue de la part du sujet se résume dans un choix simple

effec-tué parmi plusieurs alternatives qui sont proposées. C'est la question dite à choix de réponses (multiple choice item) qui d'ailleurs semble avoir été le plus exploitée en mesure du rendement scolaire. Parmi les avanta-ges les plus reconnus de cette forme d'examen, citons principalement:

1) l'objectivité et la simplicité de la correction des réponses à chaque question; généralement cette correction est dichoto-mique i.e. que le résultat 1 est attribué à un choix cor-rect (celui de la bonne réponse) alors que le résultat 0 est attribué à l'un des choix incorrects (le choix d'un des leurres qui accompagnent la bonne réponse);

2) la simplicité avec laquelle le résultat total est compilé pour chaque sujet, ce résultat étant la somme des bonnes réponses;

(9)

13) l ' é c h a n t i l l o n n a g e relativement grand de q u e s t i o n s , qui c a r a c t é

r i s e ce genre d'examen, implique des p r o p r i é t é s métriques i n

d é n i a b l e s : v a l i d i t é de contenu, pouvoir d i s c r i m i n a t i f , p r é

-c i s i o n , e t -c . . .

Les principaux avantages, qui viennent d ' ê t r e énumérés au s u j e t de

l'examen composé d'un ensemble de questions s t r u c t u r é e s du format "choix

de réponses", s'accompagnent également de c e r t a i n s i n c o n v é n i e n t s . De

nom-breuses c r i t i q u e s ont é t é formulées à l ' é g a r d de l'examen o b j e c t i f dont

quelques-unes ont é t é retenues e t qui feront l ' o b j e t de l a p r é s e n t e étude:

ce s o n t c e l l e s qui i n t é r e s s e n t de p r è s ou de l o i n le pouvoir d i s c r i m i n a t i f

de l'examen o b j e c t i f s o i t au niveau de chaque q u e s t i o n , s o i t au niveau du

r é s u l t a t t o t a l à l'ensemble des q u e s t i o n s .

Dans l e "jargon" de l a mesure, d i s c r i m i n e r c ' e s t é t a b l i r ou f a i r e

r e s s o r t i r des d i f f é r e n c e s i n d i v i d u e l l e s . Cette q u a l i t é métrologique se r e

-trouve dans l'examen o b j e c t i f t e l que c o r r i g é " c l a s s i q u e m e n t " . . .

1) Au niveau de chaque q u e s t i o n , par l a dichotomie "succès versus

échec".

2) Au niveau du test entier, dans l'étendue simple ou dans le degré de dispersion des résultats.

Toutefois, le degré de dispersion des résultats à un examen objec-tif est fonction du pouvoir discriminaobjec-tif des questions qui le composent. Le problème qui sera soulevé se limitera donc à la discrimination entre les sujets répondant à une question objective et aux extensions possibles qui ont été données à une telle notion.

(10)

...3

Une première extension donnée au concept de pouvoir discriminatif d'une question (ou item) concerne la validité de cette question en relation avec la performance au test entier ou à un critère quelconque. C'est que le pouvoir discriminatif, considéré en lui-même, repose sur le nombre de relations de différence établies par une question corrigée dichotomique-ment et se conçoit indistinctedichotomique-ment de l'orientation que peuvent prendre

ces relations de différence en rapport avec un critère quelconque.

En d'autres termes un item peut manifester un pouvoir discrimina-tif élevé tout en établissant des différences individuelles:

1) dans le même sens que celles qui sont observées au test entier ou à un critère quelconque (discrimination positive);

2) dans le sens contraire à celles du test entier ou du critère (dis-crimination négative);

3) sans aucun sens précis en relation avec le test entier ou le critère (discrimination neutre) de type objectif.

L'analyse des items, conçue dans la plus pure tradition, peut donc se résumer à trois préoccupations majeures dans l'évaluation de la contri-bution de ces items à la mesure du rendement:

a) le calcul d'un indice de difficulté (% de réussites ou d'échecs) pour un échantillon donné de sujets,

b) le calcul d'un coefficient de discrimination basé essentiellement sur une quantité de relations de différences établies entres les répondants, et enfin...

(11)

..4

c) le calcul d'un degré d'association entre le succès à chaque item et la performance à un critère quelconque.

Une deuxième extension à la notion de discrimination d'une ques-tion d'examen dit objectif concerne, outre la differentiaques-tion succès-échec, la discrimination plus poussée soit:

a) parmi les sujets répondants ayant réussi une question,

b) parmi les sujets répondants ayant échoué la même question.

Ce genre de discrimination, peu exploité en pratique, a fait l'ob-jet de certaines études théoriques dans lesquelles des différences indivi-duelles ont été établies:

en degré de certitude que le choix désigné est la réponse correcte;

dans l'habileté à reconnaître les leurres comme étant de mauvaises réponses (par exemple: l'information partielle selon Coombs et Millholland, 1956).

Des procédés variés ont été exploités pour mesurer ces deux aspects de la performance à des tests objectifs. L'ensemble des procédures men-tionnés dans les rapports de recherche en ce domaine implique essentielle-ment l'un ou/et l'autre des deux aspects suivants:

1) un mode de réponse différent de la tâche conventionnelle requi-se de la part du sujet dans un test objectif (par exemple:

(1) Habituellement, dans un examen de type objectif, les sujets répondent aux questions en ne désignant qu'un seul des choix proposés.

(12)

...5

le sujet peut être invité à désigner un minimum de réponses possibles pour être certain d'avoir choisi la bonne réponse -le sujet est informé qu'il doit désigner -le plus de mauvaises réponses possibles - le sujet, dans certain cas, répond de ma-nière conventionnelle mais indique sur une échelle standardi-sée le degré de certitude qu'il éprouve d'avoir choisi la bon-ne réponse).

2) un procédé de correction différentielle (selon le mode de réponse) connu et présumément compris du sujet afin de forcer ce der-nier à maximiser son résultat tout en évitant de prendre des risques non calculés. Par exemple, avec le mode de réponse par lequel le sujet doit désigner les mauvaises réponses qu'il est certain de reconnaître comme telle, le sujet peut être in-formé qu'il recevra un point par mauvaise réponse proprement désignée mais qu'il perdra 3, 4 points ou davantage (dépendant du nombre de choix proposés) s'il désigne la bonne réponse.

L'étude de ces divers prodédés a été orientée vers l'établissement de différences individuelles reflétées par une plus grande discrimination des questions ou du test entier et par une précision accrue. Ce sont là

les résultats les plus explicites qui se dégagent des études dans lesquel-les on a mesuré le degré de certitude des réponses faites par lesquel-les sujets, ëoit directement à l'aide d'une échelle de certitude (comme dans l'étude de Dressel et Schmid, 1953), soit indirectement, par le nombre de réponses que les sujets croient devoir faire pour être certains d'avoir choisi la bonne réponse (Dressel et Schmid, 1953). Des résultats similaires ont été

(13)

rapportés par Coombs et Millholland (1956) au sujet du nombre de leurres que les sujets peuvent reconnaître comme mauvais (information partielle). Cependant, la validité de ces trois aspects de la performance à des ques-tions de type objectif ne semble pas avoir été clairement établie. L'em-ploi de test différents pour exL'em-ploiter divers modes de réponses constitue une limitation sérieuse à certaines études du fait qu'il devient

diffici-le d'évaluer diffici-le degré d'association pouvant exister entre la performance observée sous un procédé et la performance observée sous un autre procédé. L'absence de critère qui caractérise d'autres recherches constitue une

se-conde limitation à l'étude de la validité des divers prodédés utilisés soit pour mesurer le degré de certitude des répondants ou soit pour éta-blir des différences individuelles en information partielle.

Le problème soulevé dans la présente recherche concerne principa-lement trois procédés ou modes de réponses déjà utilisés dans des recher-ches antérieures pour augmenter la discrimination entre les sujets:

1) un mode de réponse conventionnel i.e. le choix d'une bonne réponse désignée comme étant bonne, accompagné d'une échelle standar-disée sur laquelle le sujet indique son degré de certitude

(certitude d'avoir choisi la bonne réponse);

2) un mode de réponse dit "choix libre" par lequel le sujet désigne un minimum de choix proposés jusqu'à ce qu'il éprouve la cer-titude absolue d'avoir inclus la bonne réponse;

(14)

.7

3) un mode de réponse dit "choix libre des leurres" par lequel le sujet désigne autant de mauvais choix proposés qu'il peut re-connaître comme tels.

Considérant que les deux premiers modes de réponse constituent des procédés pouvant conduire à la mesure du degré de certitude éprouvé par

les sujets et considérant que le troisième mode de réponse correspond à ce que Coombs et Millholland ont appelé "information partielle" (1956 , page 14 ) , trois questions peuvent être soulevées:

1) Jusqu'à quel point les modes de réponse 1 et 2 constituent-ils des mesures équivalentes du degré de certitude:

a) en terme de résultat moyen au niveau de chaque question ou au niveau du test entier?

b) en terme de degré de dispersion entre les sujets au niveau de chaque question ou au niveau du test entier?

c) en terme de degré d'association ou de corrélation entre ces deux mesures au niveau de chaque question ou au niveau du test entier?

2) Quel est le degré d'association (corrélation) existant entre le degré de certitude observé par chacun des deux modes de répon-se et le nombre de leurres indentifiés correctement?

(15)

... 8

3) Le degré de certitude manifesté à l'un ou l'autre des trois modes de réponse est-il en relation avec la performance au test en-tier?

Le but de la présente recherche est d'apporter des éléments de ré-ponse à ces trois questions et de vérifier certaines hypothèses que des

études antérieures ont suggérées.

Inventaire de la littérature

La majorité des questions (ou items) à choix de réponses dans un test dit "objectif" ne comportent qu'une seule bonne réponse accompagnée d'un certain nombre de mauvaises réponses ou leurres. De plus, les ré-ponses à ces questions sont habituellement corrigés de façon dichotomi-que, c'est-à-dire que l'on accorde 1 point pour une bonne réponse d'un individu à une question et 0 pour un mauvais choix. Le rendement d'un individu est quantifié par le nombre de bonnes réponses qu'il a données ou d'items qu'il a réussis. Pour ce qui concerne la mesure des connais-sances, une épreuve de rendement sert généralement à déterminer au niveau de chacun de ses items, la présence ou l'absence de telle ou telle infor-mation chez les sujets. Guttmann précise que ce qui est mesuré, c'est

si oui ou non un sujet donné possède telle information en particulier. (Guttmann et Schlesinger, 1967, p. 2 ) . Il s'ensuit que les mauvais choix importent peu quels qu'ils soient puisqu'ils ne font que témoigner de l'absence d'une ou de certaines informations chez le sujet. La dichoto-misation dans la correction des réponses à un item impliquerait donc deux

(16)

...9

1) Ceux qui désignent ou choisissent la bonne réponse et chez lesquels on présume l'existence de l'information demandée dans la ques-tion;

2) Ceux qui désignent un des leurres suggérés et chez lesquels sujets on présume l'absence d'information.

Le test à choix de réponses est très largement utilisé car il est considéré comme l'un des meilleurs instruments pour la mesure objective du rendement. Toutefois, plusieurs chercheurs ont tenté d'en améliorer les qualités métriques afin d'en connaître davantage sur les connaissances que possèdent les sujets examinés. Ainsi, plusieurs modifications ont été ap-portées au test à choix de réponses en vue d'une part d'en augmenter la précision et d'autre part d'en apprendre davantage sur le comportement des individus qui répondent aux items de ce type de test. Les modifications ont porté autant da côté de la correction des items que de celui des ins-tructions et des modes de réponses. Nous allons maintenant prodédér à un inventaire de la littérature concernant ces trois questions.

La correction pour le hasard

Dans sa forme conventionnelle, l'épreuve dite "objective" de con-naissances comporte des items dont les principaux éléments sont les sui-vants :

1) une question (Stem) dans laquelle l'examinateur demande directe-ment au sujet l'information que celui-ci devrait posséder;

(17)

10

2) un ensemble de réponses suggérées au sujet dont une seule est pré-sumée correcte par l'examinateur. Quant aux mauvaises répon-ses suggérées, elles constituent des leurres qui, théorique-ment, devraient être attrayants pour l'individu qui ne con-naît pas la bonne réponse; leur rôle ne consiste pas seulement

à accompagner la bonne réponse, mais aussi à masquer celle-ci.

En principe, le résultat d'un individu à une telle épreuve s'ex-prime par le nombre d'items qu'il a réussis. Cependant, le fait de

soup-çonner sérieusement que certaines réponses (bonnes ou mauvaises) à un ex-amen objectif peuvent être le fruit du pur hasard, le calcul du résultat total a été l'objet de modifications variées. Essentiellement, ces modi-fications visent à enlever au nombre total de bonnes réponses, celles que le sujet aurait pu obtenir par pur hasard. La procédure la plus répandue est la suivante:

Résultat total = (nombre de bonnes réponses) - nombre de mauvaises réponses K - 1

dans laquelle K = le nombre de choix (bonnes ou mauvaises réponses) sug-gérés dans chaque item.

Cette méthode de corriger pour le hasard repose sur les postulats gratuits que:

1) le sujet a répondu au hasard à toutes les questions qu'il a échouées;

2) le sujet a obtenu un certain nombre de bonnes réponses par pur ha-sard et que ce nombre peut être estimé à partir du nombre de mauvaises réponses.

(18)

11

Ces deux p o s t u l a t s , t e l s que contenus implicitement dans les

pro-cédures les plus connues de correction pour le hasard, sont incompatibles

avec l'existence de niveaux intermédiaires d'information (ou l'existence

de l'information p a r t i e l l e ) . Classiquement, la réponse à une question

ob-jective de connaissance dans une matière donnée a toujours été interprétée

par rapport à un c r i t è r e d'information totale ou complète: la présence

de ce c r i t è r e , chez un sujet, étant décelée par une bonne réponse, son

absence par une mauvaise... . D'où la dichotomie que l'on connaît: succès

-échec.

Sans tenter de résoudre entièrement le problème des réponses f a i

-tes au hasard dans les -test objectifs, i l s e r a i t bon de souligner les

prin-cipales naïvetés qui se sont répandues à travers les solutions considérées

comme les plus sérieuses:

a) en terme d ' a t t i t u d e globale de l'examiné, face au test objectif,

i l s e r a i t naïf d'affirmer s o i t . . .

- que tous les sujets répondent au hasard à tous les items;

- que certains sujets répondent au hasard à tous les items alors

que d'autres adoptent une attitude plus reflexive à tous

les items.

I l apparaît plus probable que certains sujets répondent au hasard

à certaines questions (pas nécessairement à toutes). Les p a r t i c u l a r i t é s

d'un t e l phénomène ne sont pas faciles à détecter et les recherches sur

l ' a t t i t u d e des sujets ont surtout porté sur l ' e f f e t des prescriptions i n

-citatives contenues dans les consignes du t e s t :

(19)

...12

b) en admettant que certains sujets répondent au hasard à certaines questions, dans une épreuve où le nombre d'alternatives est le même pour toutes les questions, il apparaît naïf de pré-sumer que la probabilité d'un succès obtenu par pur hasard est la même pour chaque question répondue par un sujet ou est la même pour tous les sujets répondant à une même question. Une telle présomption constitue un troisième postulat impli-citement reconnu dans les procédures conventionnelles. Ce postulat a été ébranlé par la reconnaissance de procédés d'é-limination systématique des mauvaises réponses que peuvent utiliser des sujets qui ne connaissent pas la bonne réponse. Cette stratégie aurait l'avantage d'augmenter la probabilité d'un succès au pur hasard en éliminant le nombre de choix à faire parmi lesquels se trouve inévitablement la bonne réponse.

La pondération différentielle des leurres

La pondération différentielle appliquée à la correction des items peut être réalisée de plusieurs façons. D'abord elle est souvent appli-quée à la suite d'une correction dichotomique et consiste à accorder un poids plus ou moins grand à la réussite d'un item, selon son degré de dif-ficulté par exemple. Le poids ainsi accordé détermine la contribution de chaque item à la note totale. Le principal avantage métrique de cette pro-cédure est d'augmenter la discrimination entre les sujets au niveau du test entier. Toutefois, au niveau de chaque question, elle ne permet pas de discriminer davantage entre les sujets qui ont échoué, ceux-ci recevant tous un résultat identique qui est "0".

(20)

.13

Une autre procédure, beaucoup moins répandue que la première, con-siste à accorder des poids différents aux mauvaises réponses. C'est la pondération différentielle des leurres. Davis et Fifer (1959) ont démon-tré que la précision d'un test peut augmenter significativement lorsque des poids différents sont attribués, non seulement aux bonnes réponses, mais aussi à chaque leurre. Cet accroissement de précision provient de l'identification d'une nouvelle source de variance constituée par le choix de leurres dans certains items par les individus incapables de reconnaître la bonne réponse. L'application de cette technique exige cependant beau-coup de temps de la part d'un spécialiste et une vaste expérience dans la construction et les modes de correction des tests. Sur le plan logique, les leurres proposés au sujet doivent s'éloigner qualitativement de la bonne réponse à des degrés divers. Enfin, il semble que l'on puisse obte-nir les mêmes résultats en ajoutant plus d'items ou en choisissant les meilleurs items pour constituer la forme finale d'un test. (Ebel, 1965, p. 23Ô.

Modes de réponses

D'autres méthodes concernent davantage les instructions données aux individus et la tâche que ceux-ci doivent effectuer pour répondre aux items. Ainsi, par exemple, Dressel et Schmid (1953) ont expérimenté quelques va-riantes de questions à choix de réponses dans le but d'accroître la discri-mination entre les sujets ayant échoué à de telles questions et d'explorer d'autres facteurs qui contribuent à l'obtention d'un résultat. Ils ont

(21)

,14

forme conventionnelle, le "Free-choice test" dans lequel on avertit les étudiants qu'il n'y a qu'une seule bonne réponse par item mais qu'ils doi-vent marquer à chaque item autant de choix qu'ils le désirent jusqu'à ce qu'il soient certains d'avoir inclus la bonne réponse. Le "Degree of

Certainty test" dans lequel l'étudiant doit manifester à chaque item ré-pondu, jusqu'à quel point il est certain du seul choix qu'il y a fait, et ce en indiquant l'un des quatre niveaux d'une échelle de certitude propo-sée, le "Multiple-Answer test" où le sujet est informé qu'il peut y avoir plus qu'une bonne réponse par item; et enfin, le "Two Answers test" qui

comporte deux bonnes réponses par item; dans ce dernier cas, l'étudiant sait que son résultat sera égal au nombre de bonnes réponses.

Toutes ces formes de test sont autant de variantes du test à choix de réponses que l'on a modifié dans l'une ou l'autre de ses parties. Les auteurs sont arrivés à découvrir plusieurs faits qu'on ne peut constater avec la forme conventionnelle. L'apport le plus original, à notre avis, provient des formes "Free-Choice" et "Degree of Certainty". En effet, Dressel et Schmidt ont tiré de l'analyse de leurs résultats, des conclu-sions intéressantes qui suggèrent des investigations plus poussées. Au "Free-Choice" test, le nombre de réponses choisies dans un item constitue-rait une mesure indirecte du degré de certitude que le sujet pourconstitue-rait at-tacher à sa réponse. Un seul choix manifesté à un item serait l'indice d'un haut degré de certitude que la réponse choisie est la bonne. La sé-lection de plusieurs réponses au lieu d'une seule serait la manifestation de l'incertitude du sujet à identifier la bonne réponse. Logiquement, un haut degré de certitude dans les réponses devrait caractériser les items

(22)

15

les plus faciles. A cette première conjecture, on peut en ajouter une au-tre: un haut degré de certitude devrait se manifester chez les sujets les plus "compétents" au résultat total. Dressel et Schmid (1953) ont obser-vé en effet une certaine association positive entre le nombre moyen de ré-ponses choisies par item et le pourcentage d'échecs des items. De même, les sujets les plus compétents ont significativement indiqué moins de ré-ponses aux questions que les sujets moyens et faibles considérés ensemble et ce, quel que soit le niveau de difficulté des items (1953, p. 588). Avec le "Degree of Certainty Test", les auteurs ont également analysé le phénomène de la certitude des répondants en relation avec leur degré de performance au test entier et le niveau de difficulté des items. Cette deuxième méthode de mesurer la certitude de la connaissance a semblé dis-criminer entre trois niveaux de performance (faible, moyen, et fort) et ce, d'une manière plus prononcée que ne l'a fait la première méthode. De plus, le pourcent de réussite des items s'est manifesté en association po-sitive avec le degré de certitude indiqué par les répondants. Enfin, cette association positive entre le degré de certitude et le pourcent de réussite des items a été observée pour chacun des trois niveaux de performance.

(Dressel et Schmid , 1953, p. 589).

La vérification d'une telle hypothèse nécessiterait la présence de certaines conjectures qui ne peuvent être examinées dans le cas de la stra-tégie expérimentale utilisée par Dressel et Schmid :

1) Si la fausse information existe et peut être inférée à partir d'un certain nombre de patrons de réponse à un s e u l c h o i x e r r o n é pour un item présenté dans un contexte de choix libre (le

(23)

,16

Free-Choice de Dressel et Schmid ) , l'erreur commise par un répondant souffrant d'une telle information devrait être ré-pétable d'une présentation à l'autre du même item.

2) Si le concept d'information fausse peut être associé à un haut de-gré de certitude chez les répondants qui manifestent un choix erroné à un item, il devrait être également associé à une autre mesure du degré de certitude comme celle impliquée dans la pro-cédure "Degree of Certainty" de Dressel et Schmid .

3) Pour que la notion de certitude obtienne plus de généralité, elle devrait être observée, avec des méthodes différentes, chez les mêmes répondants. Si une tellennotion est généralisable, les deux méthodes (le choix libre vs l'échelle de certitude) de-vraient donner des mesures associées positivement l'un à l'au-tre.

Procédés pour mesurer l'information partielle

A la notion de fausse information introduite par Dressel et Schmidt se sont ajoutées deux notions complémentaires: celles d'information par-tielle et de fausse information parpar-tielle. Coombs, Millholland et Womer ont ainsi défini ces deux notions:

"... while and individual may not know the answer to an item, he may know some of the things which are wrong. This is called partial information". (1956, p. 14)

Pour un répondant qui considère la bonne réponse comme mauvaise ("misinformation") et qui, en plus, reconnaît un ou plusieurs leurres comme

(24)

...17

mauvais, ça devient, selon Coombs et alii, de la fausse information par-tielle (1956, p. 14).

Le procédé utilisé par Coombs et alii, pour mesurer l'information partielle consiste à prendre un item à choix de réponses dont une seule est bonne et à demander au sujet d'indiquer les mauvaises réponses. Le procédé de correction d'un tel mode de réponses conduit à une differentia-tion entre les sujets sur une échelle ordinale de sept (7) points pour un item à 4 alternatives.

a) 1 point est alloué pour chaque leurre choisi;

b) 3 points sont enlevés si la bonne réponse est choisie comme leurre.

A l'aide du calcul des probabilités on peut déterminer la propor-tion attendue de sujets qui devraient identifier correctement un leurre comme deuxième choix après avoir identifié correctement un leurre comme premier choix; de même on peut déterminer la proportion de sujets qui de-vraient identifier correctement un leurre comme troisième choix après avoir identifié correctement deux leurres comme choix antérieurs. Les déviations entre les diverses proportions observées de celles qui sont at-tendues sont l'indication de l'existence de l'information partielle chez certains sujets. En comparant la grandeur de cette proportion avec celles des proportions obtenues à certains test les auteurs concluent:

"The results demonstrate that partial information does operate, in certain test situations, in the selec-tion of responses to multiple choice test items". (Coombs et alii, 1956, p. 21).

(25)

..18

De plus, les répondants qui ont indiqué (comme dans le cas de la méthode conventionnelle) le plus de réponses correctes ont manifesté plus

d'information partielle aux items échoués que les répondants qui ont indi-qué moins de réponses correctes. Ainsi, infèrent les auteurs,

l'informa-tion partielle serait reliée à l'informal'informa-tion complète (Coombs et alii, 1956, p. 21).

Cette même recherche a étudié également, à l'aide de certaines me-sures indirectes, un phénomène que les auteurs ont appelé le "Standard of assurance". Avec trois modes de réponse à des items objectifs i.e. un mo-de conventionnel, un momo-de expérimental pour déceler mo-des mo-degrés d'informa-tion partielle et un mode combiné (mise en ordre des leurres du "pire" au "moins pire") les auteurs ont déterminé indirectement plusieurs indices de certitude jouissant d'une certaine indépendance expérimentale. Les diffé-rents indices ainsi obtenus ne se sont pas avérés comme étant étroitement associés: soit que ces indices constituent des mesures différentes du de-gré de certitude, soit que les répondants manifestent des standards diffé-rents de certitude ou d'assurance d'un test à l'autre (Coombs et alii, 1956, p. 32). Soulignons qu'un soupçon similaire avait été exprimé par Dressel et Schmidt au sujet de deux procédés utilisés par eux pour demander au su-jet de révéler son degré de certitude dans ses réponses (1953, p. 593).

Concernant la stabilité du degré de certitude exprimé par un sujet, selon un mode quelconque de réponses pris parmi ceux déjà étudiés, la lit-térature ne semble pas la faire intervenir comme étant un facteur possible pouvant déterminer la grandeur des corrélations entre différentes mesures d'assurance. L'argument est implicitement contenu dans une approche

(26)

..19

théorique au problème de la mesure de l'information partielle donnée par De Finetti (1965). L'auteur, en commentant plusieurs situations dans les-quelles un sujet doit manifester son degré d'assurance, insiste sur l'im-portance des "règles du jeu" données dans les instructions. Ces règles du jeu consistent à faire prendre conscience au sujet qu'il doit révéler le plus exactement possible la croyance ("belief") qu'il éprouve au sujet de son degré d'incertitude. L'auteur souligne en plus que le mode de correc-tion, tel que devant être compris par le sujet, peut forcer plus ou moins celui-ci, à révéler son véritable degré de certitude. Ainsi vu, dans le cadre de l'information partielle:

Tffhe problem is no longer to draw a hard and fast line between responses to be attributed to knowledge or to a guess, but to obtain responses giving a reliable knowledge of the nature of the guess involved, and so to measure the only constant factor in the situation, the subject's degree of uncertainty". (De Finetti, 1965, p. 120).

L'auteur ajoute que la méthode expérimentale utilisée par Coombs constitue une approche significative en ce sens. (1965, p. 121).

Il nous apparaît donc vraisemblable que l'information partielle constitue un processus de médiation dans la réponse d'un individu à une item. Entre l'information complète qui conduit au résultat "1" et l'igno-rance totale qui mène aurrésultat "0" selon le mode conventionnel de cor-rection, il existe des niveaux intermédiaires d'information (information partielle) qui peuvent conduire à un résultat "1" ou "0" (Coombs et alii., 1956, p. 13). Le sujet qui ne connaît pas la bonne réponse peut

(27)

...20

question demandée. Dans un contexte où on multiplie les efforts pour ti-rer d'un item le plus d'information possible sur la connaissance que pos-sède un sujet, Little (1965) nous présente un rationnel qui tient compte de six niveaux d'information pouvant partager et discriminer les sujets répondant à une question:

1. information complète et positive qui conduit à la bonne réponse;

2. information partielle conduisant à la bonne réponse;

3. absence totale d'information, le choix est fait au pur hasard ou

il y a ommission;

4. information partielle conduisant à une mauvaise réponse;

5. fausse information conduisant à une mauvaise réponse;

6. le sentiment que la question est stupide, il connaît la réponse qui est demandée mais n'est pas d'accord et ne donne pas la bonne réponse.

Selon ce chercheur, à ces catégories de répondants, devraient pos-siblement correspondre des comportements différents.

L'analyse des leurres

Les mauvais choix ont été l ' o b j e t d'investigation de l a part

d'au-tres chercheurs tels Powells (1968) et Guttmann (1967). Powells a

démon-tré dans une recherche que les erreurs dans les réponses ne se répartissent

pas au hasard mais qu'au contraire des consistances d'erreurs apparaissent

(28)

...21

dans chacun des sous-groupes formés pour son analyse. Il en conclut que les mauvais choix constituent une information aussi valable que les bonnes réponses et qu'ils ont une signification statistique et peut-être psycho-logique. Il reste à déterminer la valeur et la nature de cette informa-tion et à préciser quel rôle peuvent jouer les leurres au point de vue de l'analyse du rendement. Guttmann et Schlesinger (1967) ont expérimenté et proposé une façon systématique de construire des leurres. Leurs recher-ches sur la valeur d'une classification à priori des leurres a permis d'i-dentifier des types d'erreurs distincts. Les conclusions auxquelles ils arrivent permettent de penser qu'il serait possible de catégoriser les in-dividus selon leur type d'erreurs ou selon un autre critère comme leur de-gré d'information ou de certitude quant à leur réponse vis-à-vis la ques-tion demandée puisqu'il est permis de supposer que des degrés d'informa-tion divers coïncident avec des degrés de certitude différents. C'est ce que nous suggèrent les conclusions auxquelles sont arrivés les auteurs mentionnés. Toutefois, la tâche de déterminer au moyen de l'information partielle des niveaux de connaissances chez un individu s'avère le vrai problème, c'est du moins ce qu'en pensent Hughes et Trimble:

"In any framework, however, assessing the knowledge of a student with partial, but less than complete, infor-mation on an item remains as the real énigme". (Hughes et Trimble, 1965, p. 118).

(29)

Chapitre II

RATIONNEL DE L'ETUDE ET HYPOTHESES

Rationnel de l'étude

Un certain nombre de recherches ont donc été faites au sujet des tests ou examen à choix de réponses. Plusieurs modifications ont été ex-plorées en vue de discriminer davantage entre les sujets répondants. Les conclusions auxquelles sont arrivés les chercheurs tels Coombs, Millholland et Womer (1955, p. 56), Dressel et Schmid (1953), De Finetti (1965),

Guttmann (1967) et autres, ont révélé des résultats intéressants. Parmi ceux-ci, deux phénomènes méritent d'être reconnus: premièrement, l'ob-servation de différences individuelles dans l'habileté à reconnaître les leurres qui accompagnent la bonne réponse à une question objective (infor-mation partielle) et deuxièmement, l'observation de différences individu-elles au niveau de la certitude que les sujets éprouvent lorsqu'il répon-dent à une question objective.

Aux trois questions qui ont été soulevées au début de cette étude, la litéérature ne suggère que des réponses incomplètes. Rappelons qu'il s'agit principalement:

1) du degré d'association pouvant exister entre des procédés utilisés pour mesurer indirectement le degré de certitude des répondants;

2) du degré d'association pouvant exister entre ces mesures de la cer-titude et l'information partielle;

(30)

-22-...23

3) de la relation entre chacun des deux phénomènes mentionnés (cer-titude et information partielle) et la performance au test entier.

Dressel et Schmidt ont fourni quelques éléments de réponses que l'on doit signaler. Ils ont observé une association positive entre le de-gré de certitude mesuré par la méthode "Dede-gré de certitude" et le pourcent de réussite des items à trois niveaux de performance. De plus, ils ont obtenu une corrélation positive entre le nombre moyen de réponses choisies par item et le % d'échecs des items, cependant rien d'intéressant n'est ressorti au niveau du test entier concernant la méthode des "choix libres". La procédure "Degré de certitude" a permis une certaine discrimination en-tre les trois niveaux de performance (faible, moyen, fort) déterminés par le résultat au test entier; on peut donc en déduire qu'il existe une asso-ciation positive entre le degré de certitude mesuré par leur méthode et le % de réussite.

Quant à la généralisation de la notion de certitude, ni Coombs et alii,,ni Dressel et Schmidt n'ont pu établir l'équivalence entre la métho-de du choix libre, celle métho-de l'échelle métho-de certitumétho-de et un standard d'assu-rance pour mesurer la certitude. Ce manque d'association entre ces divers procédés a suggéré aux auteurs de la recherche, l'hypothèse que les indi-ces calculés sont des mesures différentes du degré de certitude ou l'hypo-thèse alternative que les modes de réponse influencent le comportement de certitude d'une manière différente.

(31)

.24

Quant à la relation entre l'information partielle et le nombre de choix nécessaires à un sujet pour être certain d'y avoir inclus la bonne réponse (méthode du choix libre), Coombs et alii. soutiennent:

"A method complementary to this is one proposed by Dressel and Schmid, called the free-choice method in which an individual marks as many choices as he desires,

to be sure of having selected the right answer. With appropriate scoring procedures this method is formally isomorphic to*the one studied here, but whether the task is psychologically complementary is an experimental question". (1956, p. 14)

Cette hypothèse d'un lien possible entre l'information partielle et une mesure indirecte de la certitude demande à être vérifiée

expérimen-talement.

Quant à la relation entre les phénomènes d'information partielle et la performance au test entier, elle peut être d'une importance considé-rable. La plus grande partie du problème qu'elle soulève n'a pas été ré-solue et dans le cas de ce qui a été observé par Dressel et Schmid, soit la relation degré de certitude vs niveau de performance en utilisant la méthode "Degré de certitude", il s'agira de confirmer ou d'infirmer dans un contexte expérimental différent ce qui n'a été de fait observé qu'une seule fois, et dans des conditions différentes.

Hypothèses

En vue d'apporter ces éléments de réponse aux questions qui ont été soulevées, trois modes de réponse ont été retenus pour l'expérience:

(32)

..25

1) un mode de choix libre par lequel un sujet est informé qu'il doit indiquer autant de choix qui lui sont nécessaires pour être

certain d'y avoir inclus la bonne réponse;

2) une échelle de certitude: après avoir désigné un seul choix qu'il pense être la bonne réponse (mode conventionnel), le sujet in-dique, sur une échelle appropriée, le niveau de certitude qu'il éprouve vis-à-vis la qualité de sa réponse;

3) le choix des leurres selon le procédé utilisé par Coombs et ses collègues pour la mesure de l'information partielle.

Ces trois modes de réponse sont accompagnés chacun d'un procédé de correction différentielle qui doit être connu et compris par le sujet ré-pondant. Ils seront décrits au chapitre suivant.

En se limitant à ces trois variables, l'état actuel de la recher-che permet d'avancer les hypothèses suivantes:

1) le degré de certitude mesuré inversement par le nombre de choix dans le mode de choix libre et le niveau indiqué par le sujet sur l'échelle de certitude constituent des mesures équivalen-tes (corrélation positive, moyennes et écart-types égaux);

2) le degré de certitude observé sous l'un ou l'autre des deux pre-miers modes est positivement associé aux degrés d'information partielle manifestée dans le choix des leurres au 3° mode

(correlation positive au niveau d'un item en particulier ou du test entier);

(33)

...26

3) les sujets ayant un résultat supérieur (au test entier)

manifes-tent un degré de certitude plus élevé (à l'un ou l'autre des

deux premiers modes) que les sujets ayant un résultat

infé-rieur (corrélation entre sous-scores observés à l'intéinfé-rieur

d'un même mode).

(34)

Chapitre III

DESCRIPTION DE L'EXPERIENCE ET PRESENTATION DES RESULTATS

A) Choix et description du test

Pour notre, expérience, nous avons choisi le test Henmon-Nelson (forme intermédiaire). Ce choix, en partie arbitraire, repose sur les principales considérations suivantes:

1- il comporte 90 item à choix de réponses (5 alternatives pour cha-que cha-question);

2- sa réputation de test standardisé nous fait présumer que les leur-res suggérés à chaque item présentent un certain degré d'at-traction (propriété métrique indispensable pour les différents modes de réponses qui seront exploités au cours de

l'expérien-ce);

3- le type d'item utilisé dans ce test se prête aisément à l'un ou l'autre des trois modes de réponses.

Puisque certains modes de réponses devaient modifier substantielle-ment la durée de passation du test, la limite de temps généralesubstantielle-ment allouée pour 1'Henmon-Nelson (35 minutes) a été négligée en vue d'en faire un test dit de performance (power test). Une telle modification s'imposait dans un certain sens afin de recueillir le plus d'informations possibles à tous les item du test.

(35)

-27-.28

B) Les modes de réponses et notation différentielle des item

1. Le "choix-libre"

Le sujet est informé que chaque item ne contient qu'une seule

bon-ne réponse mais q u ' i l doit inscrire autant de choix q u ' i l le juge à propos

pour ê t r e certain d'y avoir inclus la bonne réponse. Cependant, on lui

précise que c ' e s t à son avantage de marquer l e moins de choix possible,

car le système de notation prévoit une pénalité pour chacun des choix

mar-qués qui sont autres que l a bonne réponse. Le mode de correction donne à

chaque item les r é s u l t a t s possibles suivants:

1° lorsque la bonne réponse est incluse dans les choix i n s c r i t s

par le sujet:

Nombre de choix i n s c r i t s Résultat à l'item

1 4

2 3

3 2

4 1

5 0

2° lorsque l a bonne réponse n ' e s t pas incluse dans les choix i n s

-c r i t s par l e sujet:

(36)

. . . 2 9

Nombre de choix i n s c r i t s R é s u l t a t à l ' i t e m

1 -1

2 -2

3 -3

4 -4

Ce mode de correction tient compte de la certitude qu'un sujet peut éprouver vis-a-i-vis la qualité de sa réponse. Des degrés divers de

certitude sont décèles indirectement par le nombre de choix inscrits. Avec ce système, on peut discriminer entre le sujet qui connaît la bonne

réponse à un item et qui en est certain jusqu'au point de n'inscrire qu'un seul choix et le sujet qui inscrit la bonne réponse mais manifeste son in-certitude en inscrivant plusieurs choix pour être sûr d'y inclure le bon.

2. L'échelle de certitude

Ce mode de réponse est substantiellement le même que le mode con-ventionnel en ce sens qu'il consiste d'abord à marquer un seul choix par item (i.e. la bonne réponse) et ensuite à indiquer le degré de certitude vis-à-vis ce choix sur l'échelle suivante:

1. Certain

2. Presque Certain

3. Déduction logique (semble la B.R.)

(37)

...30

Le choix de l'une de ces quatre catégories, en plus de la bonne

réponse conventionnelle, constitue un indice de certitude.

Le système de correction est le suivant pour chaque item:

1° si la bonne réponse est choisie:

Indice de certitude choisi

Résultat à l'item

1

2

3

4 omission

4

3

2

1

0 2° si une mauvaise réponse est choisie:

Indice de certitude choisi

Résultat à l'item

1

2

3

4 -4

-3

-2

-1

3. L'identification des leurres

Ce mode de réponse consiste pour le sujet à marquer ou inscrire à

chaque item les leurres p l u t ô t que l a bonne réponse. Le nombre de leurres

correctement désignés par un sujet est une mesure de son degré

d'informa-tion. Cette méthode diffère de la méthode conventionnelle parce que le

(38)

...31

sujet n'inscrit que les leurres qu'il reconnaît comme mauvaise réponses. Pour un item à cinq choix, dont une bonne réponse et quatre leurres, on

accorde un point pour chaque leurre identifié correctement et on soustrait quatre points si la bonne réponse est désignée comme un leurre. Donc, les résultats à un item de 5 choix s'étendent de +4 à -4 et chacun provient d'un patron de réponse bien particulier.

Cette méthode est fondée sur l'existence de l'information partiel-le selon laquelpartiel-le un individu, incapabpartiel-le de reconnaître la bonne réponse parmi plusieurs choix proposés peut cependant éliminer une ou plusieurs mauvaises réponses. S'il reconnaît la bonne réponse, alors il est capable

d'éliminer toutes les mauvaises: information considérée comme totale se-lon Coombs et ses collaborateurs. S'il identifie la bonne réponse comme étant un leurre, il possède alors une fausse information et si en plus il identifie correctement quelques-uns des leurres ça devient de la fausse information partielle. Ce rationnel est basé sur le postulat que l'infor-mation partielle existe et intervient dans un test à choix de réponses. Le résultat obtenu par un sujet à un item dépend avant tout du nombre de leurres identifiés correctement et aussi de la présence ou de l'absence de la bonne réponse parmi les choix désignés par ce sujet.

Le système de correction est le suivant pour chaque item:

1° si la bonne réponse est incluse dans les leurres inscrits par le sujet:

(39)

32 Nombre de leurres inscrits Résultat à l'item

1 -4

2 -3

3 -2

4 -1

2° lorsque la bonne réponse n'est pas incluse dans les leurres

inscrits par le sujet:

Nombre de leurres inscrits Résultat à l'item

1 +4

2 +3

3 +2

4 +1

C) Description de l'échantillonnage et de l'expérimentation

Un groupe de 150 sujets masculins, de niveaux secondaires I I et

I I I , a participé volontairement à l'expérimentation. Puisque chaque i n d i

-vidu devait subir le même t e s t sous t r o i s modes de réponses différents, le

schéma expérimental suivant a été adopté:

1- Pour contrebalancer l ' e f f e t d'ordre de présentation des t r o i s

mo-des de réponses, six groupes de sujets ont été constitués au

pur hasard à p a r t i r de l'échantillon global;

(40)

...33

2- Les ordres différents de présentation des modes de réponses

corres-pondent à six permutations de trois objets pris parmi un

ensem-ble fondamental de trois; chacun des groupes a été assigné au

pur hasard à l'un des six ordres de présentation.

L'expérience s'est dérouléeà l'école Jean-de-Brébeuf de la

Commis-sion Scolaire des 'Ecoles Catholiques de Québec. Trois sesCommis-sions d'une

du-rée d'une heure chacune ont été requises et les six groupes de sujets ont

été convoqués à chacune des sessions. Les sessions devaient noliser le

temps alloué à une période de cours dans l'horaire régulier de l'école.

Ainsi la première session eut lieu un mardi matin, la seconde eut lieu le

lendemain matin et la troisième, le vendredi matin de la même semaine.

La figure 1 présente les informations pertinentes au déroulement de

l'expé-rimentation.

Figure 1

DISTRIBUTIONS DES MODES DE REPONSES AUX TROIS SESSIONS

D'ADMINISTRATION DU TEST SELON LES SIX GROUPES DE SUJETS QUI

ONT ETE CONSTITUES

GROUPES

SESSION

DATE

I

II

III

IV

V

VI

1ère

8 juin 1971

CL

EC

IL

2ème

9 juin 1971

EC

IL

CL

EC

3ème

11 juin 1971

IL

EC

CL

IL

EC

CL

Légende: CL: choix libre.

EC: échelle de certitude.

(41)

.34

L'expérimentation étant terminée, 201 copies ont été éliminées de

l'étude parmi les catégories suivantes de sujets:

1- Ceux qui n'ont pas été présents aux trois sessions;

2- Ceux qui ont semblé dévié à la consigne d'un mode particulier de

réponse.

3 - Ceux qui n ' o n t pas répondu à tous l e s item.

Le t a b l e a u I p r é s e n t e l e s p r i n c i p a l e s c a r a c t é r i s t i q u e s de l ' é c h a n

-t i l l o n de s u j e -t s , après é l i m i n a -t i o n .

A

T a b l e a u I

DESCRIPTION DES SIX GROUPES DE L'ECHANTILLON, QUANT A L'AGE ET QUANT AU NIVEAU, APRES ELIMINATION.

II

GROUPES

III

IV

VI

Secondaire II

10

16

12 Secondaire III

15 Total:

16

12

17

14

15 Age médian

14.6 ans 15

14.9 14.5 14.8 16.2

(42)

. . . 3 5

D) P r é s e n t a t i o n des r é s u l t a t s observés aux p r i n c i p a l e s v a r i a b l e s

Les principaux r é s u l t a t s qui ont é t é compilés pour l e s fins de l a

présente étude sont l e s s u i v a n t s :

Le mode du choix l i b r e nous permet d ' o b t e n i r t r o i s r é s u l t a t s par

s u j e t :

1° l e r é s u l t a t t o t a l , qui e s t l a somme des r é s u l t a t s observés à chaque

item, e s t compilé selon l e mode de c o r r e c t i o n d é c r i t

précédem-ment; (Symbole: RCL);

2 l e nombre moyen de choix indiqués à chaque item par un s u j e t ;

(Symbole: NCL);

3° l a fréquence d ' i n c l u s i o n de l a bonne réponse par un s u j e t pour tous

l e s items; (Symbole: ICL).

Le mode de l ' é c h e l l e de c e r t i t u d e f o u r n i t l e s manifestations

suivan-t e s de l a performance pour chacun des s u j e suivan-t s :

1° l e r é s u l t a t t o t a l qui e s t l a somme des r é s u l t a t s observés à chaque

item e t qui e s t compilé selon l e mode de c o r r e c t i o n d é c r i t p r é

-cédemment; (Symbole REC);

2° l ' i n d i c e de c e r t i t u d e moyen par item pour chaque s u j e t ; (Symbole

IEC);

(43)

...36

3° le résultat total qui aurait été obtenu en corrigeant les réponses dés sujets selon le procédé dichotomique conventionnel;

(Symbole CD);

Le mode de l'identification des leurres n'offre qu'un seul résultat dérivé d'après un mode de correction décrit précédemment. Ce résultat est

composé de la somme des résultats partiels obtenus à chaque item; (Symbole RIL);

Le tableau II présente les principales statistiques décrivant cha-cune des variables pour chacun des groupes de sujets et pour l'échantillon total.

Considérant que le résultat total aux trois modes offre une même étendue simple possible, soit de -360 à +360, les moyennes de chacun des groupes à ces trois premières variables, de même que les écarts-types, sont statistiquement comparables pour évaluer l'équivalence des groupes entre eux.

Un examen sommaire des moyennes observées à ces trois variables permet de constater des fluctuations substantielles d'un groupe à l'autre. Afin d'évaluer l'équivalence des groupes de sujets, une seule variable a été examinée de près: il s'agit du résultat que les sujets auraient obte-nu si ceux-ci avaient été soumis au mode conventionnel de réponse (v.g. le résultat CD qui découle de la première partie du mode de réponse "échelle ce certitude").

(44)

. . . 3 7

T a b l e a u I I

MOYENNES ET ECART-TYPES DE CHAQUE VARIABLE POUR CHACUN DES GROUPES DE SUJETS ET POUR L'ECHANTILLON TOTAL.

l a b i é s RCL REC RIL NCL IEC ICL CD I I I I I I IV V IV ECHANTILLON TOTAL 2 7 4 . 3 8( 1 ) 2 2 9 . 3 3 2 5 6 . 9 2 2 4 1 . 2 3 250.86 263.27 2 5 4 . 2 26.49(2) 37.67 63.37 567.23 4 5 . 5 7 4 5 . 5 3 47.66 2 4 0 . 7 5 182 1 9 2 . 1 7 1 7 3 . 4 7 2 0 0 . 4 3 2 0 6 . 9 3 200.66 28.86 67.16 53.95 40.16 58.89 63.90 5 5 . 3 5 2 6 7 . 7 5 184.44 217 205.76 202.07 207 216.62 27.73 57.32 68.17 48.29 56.35 76.13 61.11 1.08 1.26 1.18 1.43 1.36 1.34 1.28 .29 .22 .14 . 2 0 . 2 5 .27 . 2 5 1.37 1.41 1.59 1.76 1.47 1.54 1.53 .21 .26 .30 . 2 7 . 2 5 .19 . 2 5 7 4 . 3 1 6 8 . 3 3 74.66 7 4 . 4 7 7 4 . 7 8 7 6 . 3 3 74.19 5.01 6 7.4.? 5 . 3 3 5 . 4 S.5-? 6.77 75.94 6 6 . 3 3 6 8 . 4 2 61.06 70.36 7 0 . 5 3 6 9 . 5 1 4.46 8.14 8.34 1 5 . 5 5 7.62 7 5 . 4 2 5.45 (1) moyennes (2) en i t a l i q u e , é c a r t s - t y p e s ,

(45)

. . . 3 8

Tableau I I I

ANALYSE DE LA VARIANCE DES RESULTATS CD POUR LES DIFFERENTS SOUS-ECHANTILLONS

Source Somme des carrés Degré de _liberté Moyenne des carrés Entre les échantillons 1254.416 250.8832 4.201* Erreurs 4598.3164 77 59.7784 Total 5852.7305 82

(46)

,39

Le tableau III présente un rapport F significatif pour une valeur de p < .01. Cette conjecture est l'indication que les sous-échantillons ne sont pas équivalents entre eux en ce qui concerne la variable dépendante CD. Deux raisons principales peuvent expliquer une telle différence entre les groupes :

1- le nombre relativement petit de sujets dans chaque groupes, lorsque l'échantillonnage est au pur hasard, peut causer des fluctua-tions importantes d'un groupe à l'autre;

2- puisque chacun des groupes a été soumis à un ordre particulier de présentation des trois modes de réponses, un effet de transfert et/ou de fatigue a pu se produire d'une administration à l'au-tre du même test.

En conclusion le scheme qui a été adopté dans cette étude en vue de contrebalancer soit des différences de groupes, soit des effets de trans-fert et/ou de fatigue, semble donc s'être avéré indispensable. Puisque cha-cune des variables occupe les première, deuxième et troisième positions dans l'ordre de présentation, les hypothèses ont été éprouvées au niveau de l'é-chantillon total.

E) Propriétés métriques de l'instrument de mesure utilisé.

Nous nous sommes limités ici à l'étude de certaines caractéristi-ques désirables pour les fins de notre recherche: ce sont la discrimination entre les sujets, la répartition des indices de difficulté des questions et la consistance interne. Seul le résultat CD a été considéré pour la descrip-tion de ces principales propriétés métriques.

(47)

...40

La figure 2 présente un histogramme des résultats bruts CD.

L'é-tendue simple observée, dont les limites vont du résultat 51 au résultat

85, en rapport avec l'étendue possible (théorique) de 0 - 90, suggère une

facilité relative de l'épreuve. Sachant d'une part que le résultat CD

pro-vient de la seconde passation du même test pour un tiers des sujets et de

la troisième passation pour un autre tiers et considérant d'autre part

qu'aucune limite de temps n'avait été imposée, on devait s'attendre à ce

que la masse des résultats se situe dans les niveaux supérieurs de

l'éten-due simple théorique. On ne remarque toutefois aucun effet de

"plafonne-ment" (ceiling) et de plus la configuration des résultats présente l'aspect

d'une courbe platykurtique.

Le coefficient de discrimination de Ferguson , calculé à partir

des fréquences de résultats correspondant à l'histogramme de la figure 2,

a une valeur de 0.97. Le test utilisé semble donc discriminer entre les

sujets de manière satisfaisante.

Une analyse sommaire des items révèle, sous un autre angle, la

fa-cilité relative de l'épreuve. Le tableau IV contient une répartition des

90 questions de l'épreuve selon divers niveaux de difficulté. On constate

que près de 42% des questions ont été réussis (correction dichotomique, mode

de réponse conventionnelle) à plus de 90 pourcent. Pour l'épreuve de

cer-taines hypothèses seules les questions les plus discriminatives ont été

re-tenues. En effet 12 questions seulement présentent un indice de difficulté

se situant entre .40 et .59 inclusivement et sont dans le voisinage du niveau

maximum de discrimination qui correspond à un indice de difficulté de 0.50.

(48)

...41

Fréquences

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1 Figure 2

REPARTITION DES RESULTATS CD

POUR LjECHANTILLON TOTAL

N - 83

X = 69.5

Légende: X = 1 sujet

X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

51 54 57 60 63 66 69 72 75 78 81 84 85

(49)

T a b l e a u IV

REPARTITION DES QUESTIONS DE L'EPREUVE SELON DIFFERENTS NIVEAUX DE REUSSITE

...42 % de réussite Nombre de questions % de questions 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 1.00 0.89 0.79 0.69 0.59 0.49 0.39 0.29 0.19 38 9 10 13 7 5 4 2 2 42.2 10.9 11.1 14.4 7.7 5.5 4.4 2.2 2.2 Total 90 100

(50)

43

Enfin, la consistance interne calculée d'après la formule 20 de Kuder-Richardson produit un coefficient de 0.86. Cette statistique indique que les sujets se sont comportés de façon comparable pendant tout le test c'est-à-dire que leur performance a été relativement constante pour la plu-part des items du test.

Malgré quelques points faibles, on peut considérer que le test, tel qu'il fut utilisé pour cette étude, présente, à l'analyse, des caractéristi-ques d'items satisfaisantes et que les résultats compilés vont permettre de procéder à l'évaluation des hypothèses déjà énoncées.

F) Vérification des hypothèses.

L'objectif principal de cette recherche était d'analyser le degré d'association ou de relation pouvant exister entre les diverses mesures de la certitude et du degré d'information qui ont été effectuées. Tel que nous l'avons déjà mentionné; très peu de chercheurs ont pu établir une relation entre :

1° La méthode du choix libre et celle de l'échelle de certitude d'une part,

2° Chacune de ces deux mesures et celle effectuée par le mode de l'iden-tification des leurres d'autre part.

Les corrélations entre les variables étudiées dans cette recherche ont été reproduites à l'appendice IV. Ce sont des corrélations du moment des pro-duits de Pearson et elles ne reflètent que des degrés d'association entre les variables.

(51)

.44

T a b l e a u V

MOYENNES, ECARTS-TYPES, INTERCORRELATTONS ET RAPPORTS

CRITIQUES ( R . C . ) QUI ONT SERVI A L'EPREUVE DE LA PREMIERE HYPOTHESE.

VARIABLES NCL IEC RCL REC Moyennes R.C. de l a d i f f é -r e n c e ! E c a r t s - t y p e s

R.C. de la

diffé-rences entre

vari-ances

Corrélations

1.28 1.53

8.09***

0.288 0.286

0.07 ( n . s . )

0.50**

254.2 200.7

1.41 ( n . s )

47.7 55.4

2.02*

0.74**

1 et 2, c f . Guilford J.P., 1965, pp. 175-193;

N.S.: non significatif

*** (Significatif à p < 0.001)

** (Significatif à p < 0.01)

* (Significatif à p < 0.05).

(52)

...45

Rappelons que notre première hypothèse s'énonçait comme suit: le degré de certitude mesuré inversement par le nombre de choix dans le mode du choix libre et le niveau de certitude indiqué par le sujet sur l'échelle de certitude constituent des mesures équivalentes. En vue d'éprouver cette hypothèse, l'équivalence entre ces deux mesures a été examinée en termes de corrélation, de comparaison de moyenneset de conparaison de variances. Les deux variables impliquées dans l'hypothèse ont déjà été symbolisées par NCL et RCL selon qu'il s'agit du nombre de choix moyen par item ou du résultat total au choix libre et par IEC et REC selon qu'il s'agit du niveau moyen de certitude par item ou du résultat total à l'échelle de certitude.

Le tableau V contient les principales données de base qui ont servi à l'épreuve de la première hypothèse. La corrélation entre les variables NCL et IEC est de l'ordre de .50, significativement différente de zéro à p < .01, ce qui permet d'avancer qu'entre ces deux mesures de la certitude, il semble exister une certaine association positive contrairement à la con-clusion à laquelle sont arrivés Dressel et Schmid, Coombs et alii. Cepen-dant un rapport critique appliqué à la différence de moyennes entre ces deux mimes variables donne une valeur Z très élevée, soit 8.091. Ce second ré-sultat indique que les moyennes des deux variables sont significativement différentes alors qu'un test de différence entre les variances de ces deux mêmes variables donne un Z non significatif égal à .072 et indique que ces variances ne sont pas significativement différentes. Ces résultats nous ont incité à entreprendre une analyse au niveau du résultat total aux deux va-riables concernées. A cette fin, nous avons considéré que le résultat total au test du choix libre qui est la somme des résultats différentiels à chaque

(53)

46

item (variable RCL) et le résultat total au test de l'échelle de certitude qui est la somme des résultats différentiels à chaque item (variable REC) constituent eux-aussi d'autres mesures du facteur "certitude". Une corré-lation de .74 obdernée entre les deux variables (Tableau V) confirme l'exis-tence d'une association fortement positive entre les deux méthodes. Un rapport critique appliqué à la différence entre les moyennes n'est pas si-gnificatif donc ne contredit pas l'existence de cette association; ce rap-port apparaît dans le tableau VI et a une valeur de 1.41. Par contre, le rapport critique concernant les variances a une valeur de 2.02, significa-tivement différente du hasard (P *-* .05).

Ces résultats, non consistants d'une analyse à l'autre, ne nous permettent pas d'accepter intégralement l'hypothèse de l'équivalence entre la certitude des réponses du sujet exprimé dans le monde du choix libre et la certitude exprimée dans l'échelle de certitude. Toutefois la corrélation significative bbservée entre les deux variables soit au niveau de chaque item, soit au niveau du résultat total, est l'indice d'une association étroi-te entre les deux mesures de certitude. Quant à la différence de moyennes (significative seulement au niveau de l'item), on observe une plus grande certitude de la part des sujets lorsque ceux-ci sont invités à désigner le plus petit nembre de choix nécessaires pour être certain d'avoir inclus la bonne réponse (moyenne NCL inférieure à la moyenne IEC). Cette plus grande certitude manifestée dans le mode du choix libre à chaque item est davantage récompensée par le mode de correction différentielle ce qui explique que la moyenne RCL (résultat total au choix libre) a tendance à être plus élevée que la moyenne REC (tendance non significative cependant).