• Aucun résultat trouvé

2. LE TEST DE JUGEMENT SITUATIONNEL

2.3 LA GRILLE DE CORRECTION

2.3.5 L’ATTRIBUTION DES POINTAGES

Une fois que les options de réponses ont été déterminées et qu’ils ont fait l’objet d’une discussion sur le plan de leur efficacité, il faut alors identifier la façon dont les bonnes et mauvaises réponses identifiées sont cotées afin d’en arriver à un résultat global au TJS. En effet l’attribution des pointages est essentielle afin de vérifier le degré de réussite de chaque candidat en vue de prendre une décision de sélection. De façon générale, il existe deux méthodes qui sont habituellement adoptées par les concepteurs de TJS dans la littérature selon le type de directive soumis aux candidats (Weekley et al., 2006).

38 D’abord, lorsque le TJS a été élaboré en fonction de la méthode du choix forcé et que l’on demande aux candidats de choisir la réponse la plus appropriée en fonction d’une liste, on aborde la correction de manière dichotomique (« single-best-answer method ») (Muros, 2008). Il s’agit d’une façon très simple qui consiste à attribuer 1 point à chaque fois que le candidat a choisi la réponse qui a été identifiée comme la meilleure façon de faire face à la situation et 0 point lorsqu’il a choisi la réponse identifiée comme étant incorrecte (St-Sauveur, Girouard et Goyette, 2014). C’est une approche que l’on adopte également parfois lorsque le candidat doit se positionner en fonction d’une échelle. En effet, il est possible de lui attribuer 1 point lorsqu’il a identifié correctement la meilleure option de réponse comme étant « Très efficace » ou « Efficace » et 0 point dans le cas où il l’a choisi comme étant « Très inefficace » ou « Inefficace ». Cette approche permet d’éviter, en cas de litige, le fait de devoir justifier concrètement la différence souvent arbitraire entre ces deux ancrages et pourquoi une option est

« Efficace » alors que l’autre serait « Très efficace ».

Or, comme les réponses incorrectes ne sont pas toutes également mauvaises, une autre façon de faire consiste à demander aux candidats, pour chacune des questions, quelle est la meilleure option de réponse et quelle est la pire façon de faire face à la situation (« best-and-worst-answer method ») (Weekley, Ployhart et Harold, 2004). Cette méthode adoptée, entre autres, par Motowidlo, Dunette et Carter (1990) est connue sous l’appellation « partial credit scoring » et a eu beaucoup d’influence dans la littérature sur les TJS (Muros, 2008; Ployhart et MacKenzie Jr., 2011). Avec cette approche de correction, chaque question génère un score allant de -2 à +2. En effet, identifier correctement la meilleure et la pire réponse résulte en un score de 2 points. Par contre, identifier la bonne réponse comme étant la pire et vice-versa donne alors un score de -1 au candidat ou -2 lorsque les deux réponses sont complètement inversées. Finalement, le fait d’avoir choisi les autres options équivaut à un score de 0. Cette façon de procéder a pour avantage de générer plus de variance dans les résultats entre les candidats. Dans le même sens, en plus d’être relativement simple à développer, il semble que cette méthode permette d’évaluer deux types de capacités présentant ainsi une vision plus complète et plus large de la capacité d’une personne à résoudre des problèmes en situation de travail (St-Sauveur et al., 2014). En effet, selon Weekly et ses collègues (2006), alors que l’option de réponse qui correspond à ce que la personne a identifié comme étant la meilleure façon de faire face à la situation est fortement corrélée avec les traits de personnalité, l’option de réponse étant identifiée à la pire façon de faire face à la situation est fortement corrélée avec les habiletés cognitives. Enfin, en pénalisant les erreurs de jugement d’une

39 personne, cette méthode a l’avantage d’être plus représentative de la performance globale d’un individu au travail (St-Sauveur et al., 2014).

D’autres concepteurs prévoient plutôt que le candidat doit mettre en rang chacune des options de réponses en identifiant la façon la plus efficace de faire face à la situation jusqu’à celle étant la moins efficace (« rank-ordering of response options method ») (Weekley, Harding, Creglow et al., 2004). Ainsi, lorsque le candidat doit classer les choix de réponses selon leur efficacité, il est alors possible d’allouer un pointage qui correspond à la moyenne du degré de la relation (c’est-à-dire l’indice de corrélation de Spearman) établie entre leur classification et celle recommandée par les experts (Weekley, Harding, et al., 2004). De cette manière, plus la relation observée est forte, plus le candidat a adopté une classification qui se rapprochait de celle des experts, alors que lorsque l’indice de corrélation est négatif, le candidat a alors porté une appréciation qui était très différente de celle des experts (Weekley et al., 2006).

En ce qui concerne la deuxième méthode, elle s’applique lorsque les candidats doivent utiliser une échelle de type Likert afin d’évaluer leur tendance à adopter les comportements suggérés ou l’efficacité des options de réponses présentées. Dans ce cas, il est possible d’attribuer un pointage aux candidats en fonction de la comparaison entre l’efficacité établie par les experts et celle identifiée par ces derniers. Pour y parvenir, on peut alors retenir la cote d’efficacité attribuée à l’option de réponse obtenue par consensus ou alors utiliser la moyenne de l’ensemble des cotes d’efficacités recueillies.

Dans ce dernier cas, la bonne réponse devient alors la moyenne et les réponses des candidats qui attribuent des cotes d’efficacité qui s’en éloignent reçoivent alors des résultats plus faibles.

Par exemple, il s’agit de l’approche adoptée par Chan et Schmitt (2002) qui, après avoir demandé aux candidats d’évaluer l’efficacité de chacune des options de réponse proposées en fonction d’une échelle en 6 points, ont attribué un score de 1, de 2 ou de 3 points pour chaque option de réponse en fonction du pourcentage de concordance entre l’appréciation du candidat et celle des experts (Chan et Schmitt, 2002). C’est l’approche également adoptée par Legree et de ses collègues (2005) qui eux ont procédé en soustrayant chacune des différences obtenues entre la moyenne d’efficacité attribuée par les experts et celle identifiée par les candidats. Par exemple, si la moyenne obtenue pour une option de réponse est 1,5 point, un candidat qui lui attribue un score de 2 sur l’échelle de Likert se voit alors pénalisé de 0,5 point. Ainsi, plus un candidat se rapproche d’un score de 0 (le plus haut résultat pouvant

40 être atteint), plus il sera considéré comme performant au test (Legree et al., 2005). Certains auteurs ont également procédé en cumulant des scores positifs par le biais d’une mesure de distanciation (« distance-mesure ») dont le résultat est égal à la somme au carré des différences entre les réponses du candidat et les cotes d’efficacité établie (square deviation) (Krokos et al., 2004). Par contre, il est nécessaire de garder à l’esprit qu’avec une telle procédure d’attribution de pointages, les candidats pourraient avoir tendance à adopter une stratégie de réponse qui vise à éviter les ancres extrêmes de l’échelle. Cette façon de faire pourrait donc leur permettre de maximiser le nombre de points obtenus, leur réponse présentant toujours un petit écart avec la bonne réponse attendue, améliorant ainsi artificiellement leur score obtenu à l’exercice (Cullen, Sackett et Lievens, 2006).

Sur le plan des avantages associés à cette procédure de correction, comme chaque option de réponse est associée à une pondération, il va sans dire que cela permet d’accumuler beaucoup plus de données permettant de contribuer à démontrer la validité et la fidélité du test (McDaniel et Nguyen, 2001). Dans le même sens, comme chaque réponse est indépendante l’une de l’autre, les résultats obtenus ne donnent pas de mesure de type ipsatif. En d’autres mots, le score obtenu à une variable ne dépend pas du score obtenu à une autre ce qui rend les comparaisons entre les individus beaucoup plus faciles. En fait, lorsqu’un test donne une mesure ipsative, l’élévation d’un score à une échelle va de pair avec une diminution des scores aux autres échelles ce qui permet seulement une comparaison de la maîtrise de ces échelles chez cet individu en particulier.

Finalement, parmi les avantages, on remarque également que cela sera beaucoup plus difficile de retenir l’ordre des réponses identifiées suite à la passation d’un TJS ce qui, non seulement, permet plus facilement d’administrer le même examen à plusieurs reprises à un même candidat, mais augmente également la validité apparente du test en laissant aux candidats la perception que le test est plus difficilement falsifiable (St-Sauveur et al., 2014).

Cependant, cette approche comprend également des inconvénients. En fait, lorsqu’un test utilise une échelle de Likert, en plus d’être beaucoup plus complexe à développer, il peut devenir très ardu en cas de litige de justifier rationnellement la différence entre une option valant 2 points et identifiée comme étant « Très efficace » alors qu’une autre très similaire équivaut à un score de 1 point puisqu’elle a seulement été jugée comme étant « Efficace ». D’un point de vue organisationnel, devoir établir la distinction entre ces deux significations peut effectivement causer certains préjudices. Par ailleurs, tel

41 que mentionné précédemment, un candidat pourrait également s’employer à éviter de choisir les ancrages de l’échelle qui se retrouvent aux deux extrêmes de façon à améliorer artificiellement son score au test.

Dans tous les cas, lorsqu’on s’intéresse à l’efficacité relative d’une grille de correction et des procédures de correction d’un TJS, il est essentiel de se tourner vers les critères permettant d’évaluer les tests, les pratiques de testing et les effets de leur utilisation qui ont été compilés et codifiés dans

« Standards for Educational and Psychological Testing » (1999). Ces critères ont été élaborés grâce aux efforts de trois organisations : American Educational Research Association (AERA), American Psychological Association (APA), et National Council on Measurement in Education (NCME). Il existe d’ailleurs un consensus au sein de la communauté scientifique et des praticiens qui jugent que les meilleures pratiques en évaluation et en sélection du personnel découlent directement de l’application de ces standards, principes et lignes directrices (Pettersen, 2000).

Les exigences psychométriques devant être suivies en contexte de sélection de personnel consistent à valider l’outil d’évaluation, à mesurer son degré de fidélité et à prendre en compte ses considérations éthiques et légales. Par ailleurs, comme le font remarquer Putka et Sackett (2010, p. 9),

« reliability and validity are concepts that provide scientific foundation upon which we construct and evaluate predictor and criterions measures of interest in personnel selection ». De cette manière, ces deux critères doivent être définis et mis en relief avec les caractéristiques propres au TJS afin d’évaluer l’efficacité relative de sa grille de correction.