• Aucun résultat trouvé

4.2. Q U ’ EVALUENT REELLEMENT LES PRATIQUES D ’ ÉVALUATION DE LA PERFORMANCE INTRA UNIVERSITAIRE ?

4.2.1. A Ratings faits par les étudiants

Pourquoi évaluer l’efficience de l’enseignement sur la base de l’opinion des étudiants ? Premièrement, pour la même raison qui amène à considérer la satisfaction des étudiants dans la fonction d’utilité de l’université : c’est leur apprentissage qui représente un objectif principal dans le fonctionnement de l’université. Deuxièmement, les étudiants représentent une catégorie d’évaluateurs qui a l’opportunité d’observer régulièrement et de près plus grand nombre des facettes qui caractérisent le processus d’enseignement. Ainsi, dans les pays anglo-saxons, surtout aux États-Unis, les ratings représentent un instrument central pour l’évaluation de la performance des enseignants.314

La question jaugeant si les résultats des ratings doivent être présentés par un seul chiffre agrégé ou par un ensemble d’indicateurs, a provoqué une vive discussion. Cependant, la forme multi-facette adoptée par les ratings, possède des avantages évidents si on envisage l’utilisation de leurs résultats comme base pour le mécanisme incitatif qui vise à renforcer l’efficience de l’enseignement (summative objective315). En effet, la qualité de l’enseignement étant un concept

multidimensionnel, les universités peuvent établir des priorités différentes pour les divers aspects de l’enseignement qui doivent être stimulés. Par conséquent, les résultats des ratings doivent fournir des évaluations séparées pour chacun des aspects en question. De plus, afin que le système incitatif soit efficient, les critères d’évaluation formulés doivent être clairs et cohérents. Les ratings, dont leurs résultats sont réduits à un petit nombre d’indicateurs exagérément agrégés,

313 Marsh [1987] ajoute à cette définition encore un point : étant donné le caractère multifonctionnel des ratings, un réel biais intervient lorsque l’influence d’un facteur externe ne se répand pas uniquement sur l’aspect de l’évaluation qui lui est le plus logiquement lié, mais sur toutes les dimensions (ou au moins sur un grand nombre) de l’évaluation.

314 Dans le même temps, les ratings restent l'objet des discussions les plus animées et pour certains universitaires – la voie la plus odieuse d’appréciation de leur travail. Le corps de littérature consacrée à ce sujet est immense. Des centaines d’études, sans exagération, sont apparues depuis le début des années soixante-dix, qui étaient marquées par l’intérêt prononcé à l’évaluation de l’enseignement par les étudiants. Ici, nous ne faisons que cerner brièvement les points les plus importants liés à la convenance, aux conditions indispensables et aux limites d’utilisations des ratings. Pour une analyse extensive de ces problèmes voir Marsh [1987].

Chapitre 4 : Le rôle conjoint des incitations extrinsèques et intrinsèques dans la distribution des efforts entre les tâches intra-universitaires

89

ne sont pas en mesure de donner aux enseignants l’information qui justifie d’une bonne évaluation ou d’une évaluation médiocre.

Un argument supplémentaire en faveur des ratings multidimensionnels concerne la qualité de l’évaluation. Plus tôt dans ce chapitre, nous avons souligné une fois de plus l’importance de l’exactitude de l’évaluation, et décrit les indicateurs qui la déterminaient. La fiabilité et la validité des ratings [par exemple Cohen, 1981 ; Marsh, 1982b] ainsi que leur sensibilité à l’influence d’attributs externes (background characteristics) [par exemple Frey, 1978] peuvent considérablement varier d’une dimension à l’autre. Or, selon le contexte, certains résultats provenant des ratings peuvent être utiles dans le système d’incitation, tandis que d’autres résultats ainsi que le résultat agrégé peuvent créer des problèmes d’interprétation et de validation. Ils risquent donc d’être inapplicables à des fins incitatives [par exemple Koon & Murray, 1995].

Les indicateurs généraux ou semi-généraux (c’est-à-dire basés uniquement sur une partie des résultats de ratings) peuvent être calculés en permanence. Cependant, les degrés d’intégration des différentes dimensions doivent être convenablement estimés et argumentés en fonction du type de comportement que l’université souhaite stimuler chez ses professeurs [par exemple Abrami, 1985].

Deux autres questions se posent alors : quelles sont les facettes de l’enseignement que les ratings évaluent réellement, et comment ces facettes correspondent-elles au concept de qualité que nous avons développé dans la section 3.1 du Chapitre 3 ? Les dimensions de l’enseignement ordinairement évaluées dans les ratings se sont cristallisées à partir des études empiriques dans le cadre desquelles les opinions des parties intéressées étaient collectionnées – étudiants, professeurs et administrations. Plus rarement, elles représentent les résultats des travaux théoriques entrepris sur l’enseignement et l’apprentissage316. A titre d’exemple, on peut citer l’étude de Feldman [1976] dont les 19 caractéristiques centrales estimables d’enseignement sont devenues le point de départ d’un grand nombre de travaux postérieurs, le système SEEQ (Student Evaluation of Education Quality) développé par Marsh317 [1982b, 1983, 1984] avec ses 9 dimensions principales, ainsi que des travaux plus récents comme celui de Young et Shaw [1999] et Hativa et al. [2001].318 La liste des dimensions composée par Feldman est présentée dans le Tableau 4.1.319

En regardant le Tableau 4.1 (ainsi que les Tableaux A6.1 et A6.2 dans l’Annexe 6), nous pouvons observer l’existence de liaisons directes entre les composants majeurs de la qualité de l’enseignement, déjà définis dans la sous-section 3.1.1 du Chapitre 3 (p. 58), et les caractéristiques de l’enseignement évaluées par les ratings : les points 1 à 5 se rapportent à la conception de

316 D’après Marsh [1987], la première recherche systématique sur l’évaluation de l’efficacité de l’enseignement par les étudiants avait été réalisée par Remmers [Brandenburg & Remmers, 1927]. C’est également Remmers qui avait développé les principes basiques d’organisation des ratings et la première échelle des paramètres de l’enseignement à évaluer (Purdue).

317 Pour d’autres exemples illustrant les dimensions à évaluer, déterminées à partir de l’analyse de facteur, voir Marsh [1987]. 318 Young et Shaw [1999] ont effectué une analyse extensive (analyse discriminante, régression linéaire, analyse de clusters) des évaluations produites par 912 étudiants pour 25 caractéristiques des enseignants et leurs cours. Sur la base des ratings, interviews avec enseignants et étudiants, enregistrements des classes, Hativa et al. [2001] ont réalisé 4 études de cas détaillées visant à estimer 38 paramètres pour 4 groupes contenant des pratiques d’enseignement.

Chapitre 4 : Le rôle conjoint des incitations extrinsèques et intrinsèques dans la distribution des efforts entre les tâches intra-universitaires

90

TABLEAU 4.1. 19 dimensions principales de l’enseignement selon Feldman [1976]*. 1. Challenge intellectuel et encouragement des réflexions

indépendantes.

10. Stimulation (par l’enseignant) de l’intérêt pour le cours et ses matières.

2. Enthousiasme de l’enseignant pour le sujet du cours ou pour l’enseignement.

11. Clarté et compréhensibilité des présentations et des explications

3. Sensibilité aux progrès des étudiants. 12. Eloquence.

4. Respect de l’enseignant manifesté envers les étudiants ; esprit convivial.

13. Encouragement aux questions et à la discussion, bienveillance aux opinons d’autrui.

5. Caractéristiques personnelles. 14. Clarté des objectifs et des conditions du cours. 6. Connaissances du sujet manifestées par l’enseignant. 15. Disponibilité de l’enseignant, aide apportée. 7. Ouverture intellectuelle de l’enseignant et « largeur »

de ses connaissances.

16. Impartialité de l’évaluation des étudiants ; qualité des examens.

8. Nature et valeur du matériel du cours (utilité et pertinence).

17. Nature et utilité du matériel supplémentaire et de l’aide technique.

9. Préparation et organisation des cours. 18. Qualité et fréquence de feedback aux étudiants. 19. Résultat perçu/Impact de l’enseignement

*La liste présentée est une version corrigée de celle de 1976, qui a été utilisée par Feldman dans ses études postérieures [par exemple Feldman, 1989]. Les numéros 5 et 19 étaient à l’origine les suivants : Gestion du travail lors des classes et Difficulté du cours/Charge de travail des étudiants. La séquence des points ici n’est pas la même que chez Feldman. L’ordre choisi ici nous aide à établir une correspondance entre les dimensions du rating et les aspects centraux de la qualité de l’enseignement déterminés dans la sous-section 3.1.1.

l’enseignement, les points de 6 à 8 concernent le contenu, les points de 9 à 18 portent sur la méthode. Une grande partie des études sur les ratings aspire, entre autre, à déterminer les dimensions clefs dont la performance concluante rend l’enseignement efficient aux yeux des étudiants. Quatre études analogues réalisées par Marsh [1981a] à l’Université de Sydney, Hayton [1983] dans les Ecoles Techniques en Australie, Clarkson [1984] à l’Université Technologique en Papouasie-Nouvelle-Guinée et Marsh et al. [1985] à l’Université de Navarra, ont utilisé comme base d’évaluation deux questionnaires – SEEQ et Endeavor – qui étaient spécialement développés pour les études d’opinion des étudiants et qui sont largement employés pour les ratings dans les pays anglo-saxons. [Frey et al., 1975] (cf. Annexe 6). Ils ont décelé des résultats très semblables : dans chacune des quatre études, les facteurs de l’enseignement soulignés par les étudiants comme étant les plus importants étaient liés avec (i) l’enthousiasme du professeur, (ii), la valeur des classes en terme d’apprentissage et (iii) la bonne organisation des classes/clarté de présentation et explications.320 Ici, nous pouvons à nouveau observer que les facteurs reflétant jusqu'à un certain degré la conception, le contenu et surtout la méthode d’un enseignement, sont intégrés parmi les objets évalués en réalité par les ratings.

Revenons au Tableau 4.1. Nous pouvons constater l’existence d’un certain déséquilibre dans l’évaluation des trois aspects en question. La méthode représente sans doute la dimension estimée de la manière la mieux détaillée. Les questions se rapportant au contenu sont très peu nombreuses

320 Les résultats d’une autre étude beaucoup plus récente de Young et Shaw [1999] sur les universités américaines montrent d’importants recoupements avec les précédentes : 82% de la variance d’une variable dichotomique qui estimait la performance générale de l’enseignant étaient expliquées par 5 (de 25) caractéristiques de l’enseignement – valeur du cours, capacité du professeur à motiver les étudiants à faire leur mieux, communication effective, organisation du cours, respect pour les étudiants. Une telle similarité entre des études réalisées dans des pays différents et avec une distance de temps si importante est assez exemplaire. Il est aussi crucial que la plupart des aspects mentionnés de l’enseignement (sauf, peut-être, l’enthousiasme) se trouvent sous le contrôle de l’enseignant et sont susceptibles d’amélioration si l’enseignant s’y investit.

Chapitre 4 : Le rôle conjoint des incitations extrinsèques et intrinsèques dans la distribution des efforts entre les tâches intra-universitaires

91

et très générales. Finalement, à partir de l’information que le questionnaire délivre sur la conception de l’enseignement, il serait impossible de restaurer entièrement les valeurs professionnelles du professeur évalué, et donc de lui attribuer un archétype concret comme ceux développés, par exemple par Kember [1997] (cf. la sous-section 3.1.1 du Chapitre 3, p. 60). Ces observations suggèrent l’idée que c’est le côté méthodique de l’enseignement qui représente probablement l’aspect le plus évalué par les ratings.

La question qui se pose ensuite est la suivante : les ratings n’évaluant en réalité qu’une partie des dimensions qualitatives de l’enseignement, l’évaluation limitée de ces dimensions est- elle malgré tout adéquate ? Les adversaires des ratings affirment souvent que les étudiants (surtout juniors) sont strictement incapables d’estimer convenablement l’efficacité de l’enseignement puisque étant relativement superficiels, instables dans leurs jugements et faciles à manipuler, trop hétéroclites, ils ne prennent pas au sérieux le processus d’évaluation, confondent les caractéristiques en les substituant inconsciemment les unes aux autres.

Les études empiriques montrent cependant que si nous tâchons d’estimer l’adéquation des résultats des ratings sur la base de cinq indicateurs, présentés au début de cette sous-section, nous obtiendrons une réponse plutôt rassurante. Feldman [1977] montre déjà que pour une classe de 25 étudiants, la fiabilité des ratings s’élève à 90%. D’après les études estimant la stabilité des ratings sur la base des données longitudinales [Firth, 1979 ; Marsh & Overall, 1979a]321 et les donnés sur les alumni [par exemple Marsh, 1977 ; Centra, 1979 ; Howard et al., 1985]322, les évaluations délivrées par les étudiant sont relativement stables : en moyenne 85% et 60% respectivement pour les deux types d’études cités. La validité des ratings a trouvé des preuves assez convaincantes dans une grande série de travaux (pour une revue cf. Cohen [1981], Feldman [1989], Kulik [2001]). Les corrélations entre les résultats des ratings et d’autres types d’évaluation sont normalement positives, significatives et souvent assez fortes.323 Les procédures valides pour tester la présence des facteurs externes susceptibles de biaiser les résultats [Marsh, 1987 ; Theall & Franklin, 2001], sont, malheureusement, très peu développées.324 Dans le même temps, les revues de la littérature

321 Les études basées sur les données longitudinales comparent les ratings faits par les étudiants lors de leurs études avec les ratings par les mêmes gens mais plusieurs années après leur promotion.

322 Ces études réalisent l’analyse croisée et comparent pour un professeur donné les résultats des ratings faits par ses étudiants courants avec les avis de ses étudiants anciens déjà promus (alumni).

323 Si nous prenons à titre d’exemple la méta-analyse de Feldman [1989], nous verrons que la corrélation moyenne entre les ratings et (i) l’évaluation délivrée par d’autres professeurs de la même université est 55%, (ii) l’évaluation faite par les experts externes – 50%, (iii) l’évaluation produite par les administrations – 39%, (iv) l’autoévaluation – 29%. Une autre méta-analyse réalisée par Cohen [1981] rapporte la corrélation moyenne entre les ratings et les résultats d’apprentissage au niveau de 43%. Ory et al. [1980] estiment la corrélation entre les ratings traditionnels et ceux déduits des commentaires écrits des étudiants au niveau de 93%.

Une autre étude sur la corrélation entre les résultats des ratings et ceux d’apprentissage présente une conclusion moins optimiste. Gramlich et Greenlee [1993] ont analysé les données sur plus de 15000 étudiants des spécialisations économiques qui avaient passé les examens standardisés. Ce travail cherchait à déterminer la corrélation entre les notes des étudiants et les ratings des professeurs qui leur avaient donné les cours. Les auteurs ont révélé qu’une dépendance existait, mais qui était vraiment faible (pour des exemples d’autres études rapportant une corrélation positive voir Aleamoni [1999, p. 158]). Une des explications plausibles de ce phénomène peut être donnée dans le cadre de la conception des tâches multiples ; elle porte sur le fait que les résultats des ratings sont susceptibles de manipulation. Dans les situations où l’évaluation par les étudiants (étant une information facile à obtenir) reste la seule source d’évaluation de la performance, les professeurs réallouent leurs efforts au profit des aspects de l’enseignement, qui ont certainement un impact positif sur l’évaluation par les étudiants. Ainsi, les enseignants facilitent consciemment les cours, coupent leur composant analytique, diminuent le volume du contrôle continu, montent les notes, etc. (pour des explications alternatives, voir Marsh [1987]).

324 Parmi les biais les plus typiques, on cite normalement la taille des classes, l’intérêt antérieur pour le sujet du cours, la difficulté du cours, les notes anticipées, la raison de choisir le cours, la personnalité de l’enseignant, la discipline, le sexe de l’enseignant et

Chapitre 4 : Le rôle conjoint des incitations extrinsèques et intrinsèques dans la distribution des efforts entre les tâches intra-universitaires

92

connexe montrent qu’une grande partie de ces facteurs influence en réalité très faiblement les ratings [McKeachie, 1979 ; Centra, 1979 ; Murray, 1980 ; Aleamoni, 1981, 1999 ; Marsh, 1987].

Finalement, comme nous l’avions pressenti, le point faible des ratings est leur généralisation.325 Il existe une série de travaux montrant que les résultats des ratings sont peu plausibles en ce qui concerne la valeur des cours, puisque les étudiants ont tendance à adapter leur attitude envers l’enseignant à la valeur de son cours [Gilmore et al., 1978 ; Marsh, 1981b ; Marsh et Overall, 1981].

Outline

Documents relatifs