B Évaluation par les pairs - Q U ’ EVALUENT REELLEMENT LES PRATIQUES D ’ ÉVALUATION DE LA PERFO

4.2. Q U ’ EVALUENT REELLEMENT LES PRATIQUES D ’ ÉVALUATION DE LA PERFORMANCE INTRA UNIVERSITAIRE ?

4.2.1. B Évaluation par les pairs

Sous le terme peer review, nous entendons ici une évaluation par les collègues ou par les observateurs externes de la performance pédagogique d’un professeur. Par rapport à la qualité d’une telle évaluation, il y a au moins un argument clair en faveur des peer reviews [par exemple Cohen & McKeachie, 1980 ; Hutchings, 1996]. Les ratings d’étudiants, si utiles qu’ils soient, ne peuvent pas véritablement être un bon indicateur de la qualité du contenu de l’enseignement. Ce sont plutôt les autres professeurs travaillant dans le même domaine qui peuvent évaluer l’actualité des connaissances et la légitimité des objectifs d’un cours et du choix du contenu. Ils peuvent également évaluer les caractéristiques plus concrètes du processus même de l’enseignement comme la pertinence des exemples, de la littérature et autre matériel de support employés, l’échelle de priorités des sujets abordés et des points à souligner et à expliquer plus en détails, les sujets judicieusement choisis pour une discussion ouverte ou pour des courtes recherches individuelles que les étudiants sont censés réaliser dans le cadre du cours.

En ce qui concerne les instruments concrets de peer review, il s’agit de visiter les classes du professeur évalué ou d’analyser des enregistrements lors des classes, de la revue des dossiers/portfolios d’enseignement dont les composants peuvent provenir de différentes sources, telles que les résumés de l’évaluation par les étudiants, l’information préparée par l’enseignant lui- même sur ses propres cours (charge de travail, programmes des cours, littérature utilisée, devoirs

des étudiants, les caractéristiques du milieu socioculturel des étudiants. Il y a une série d’approches de tester la portée des biais produits par de tels facteurs (cf. Marsh [1987] pour leurs descriptions). Pourtant, Marsh affirme qu’une grande partie des travaux qui cherchaient à estimer les biais des ratings étaient si biaisés eux-mêmes, avaient tant de problèmes méthodologiques et utilisaient des concepts de biais si mal déterminés qu’ils « peuvent être appelés une chasse aux sorcières » [Marsh, 1987, p. 328]. De toutes façon, les résultats du grand corps des recherches sur ce sujet montrent que, pour la plupart des dimensions des ratings, l’influence des caractéristiques externes est très modeste et souvent très sélective (de sorte que le facteur donné n’affecte pas toutes les dimensions mais seulement celle à laquelle il est le plus logiquement lié), les directions des effets sont, de temps à autre, contre intuitives et varient d’une étude à l’autre.

325_{La validité et la généralisation des ratings ont été mises en cause par les études à la « Dr. Fox », inspirées par un travail} original de Naftulin et al. [1973]. Les auteurs ont mis en place un cours donné par un acteur professionnel à des étudiants qui étaient convaincus d’avoir devant eux un vrai professeur. Le rapporteur brillait d’éloquence, son discours était imprégné d’enthousiasme, mais le contenu du cours était quasiment nul ; puis la qualité de l’enseignement était évaluée. Malgré une faible valeur éducative du cours, les étudiants ont produit des ratings très favorables. L’organisation méthodologique de cette étude était pourtant vicieuse dans la majorité des points cruciaux [Frey, 1979], ce qui a incité Ware et Williams [par exemple 1975, 1977, Williams & Ware, 1977] à développer un paradigme particulier pour les études à la Dr.Fox. Une revue [Ware et Williams, 1979, 1980] des études réalisées sur la base de ce paradigme a montré que les différences en matière d’expressivité expliquaient constamment d’avantage de variance dans les ratings que les différences en matière de contenu de l’enseignement. Ce résultat prouvait le fait que les résultats des ratings sont faciles à manipuler (pour une revue des études rapportant les résultats des expériences avec manipulations d’autres variables, voir Marsh [1987]). Cependant, en 1982, Marsh et Ware ont repris les données utilisées par Ware et Williams. Ils ont noté que lorsque les étudiants savaient qu’ils étaient censés passer un examen à la fin du cours, l’effet de Dr. Fox ne trouvait plus de support : l’expressivité et l’éloquence en présence d’un contenu nul n’affectait plus que la dimension liée à l’enthousiasme de l’enseignant, mais pas les évaluations réfléchissant les connaissances du professeur ou l’organisation et la clarté du cours.

Chapitre 4 : Le rôle conjoint des incitations extrinsèques et intrinsèques dans la distribution des efforts entre les tâches intra-universitaires

des étudiants, examens, etc.) et sur les méthodes d’enseignement qu’il applique, les exemples de travaux de ses étudiants, les rapports sur son enseignement faits par d’autres professeurs, etc. [par exemple Edgerton et al., 1991 ; Seldin, 1991 ; Centra, 1993].

L’observation du travail dans les classes peut délivrer une information authentique. Mais en tant que base d’évaluation à des fins incitatives, cette source considérée seule fournit une information insuffisante, puisque elle ne représente qu’une infime partie du travail d’un enseignant et de plus, est susceptible d’être biaisée par le fait même de la visite des observateurs externes.

Le portfolio, qui peut d’ailleurs contenir, entre autres, les résultats d’observations des classes, représente une source d’information plus riche et multi-facette. Un véritable portfolio n’est pas simplement un ensemble de programmes de cours et de rapports dissociés. Cerbin [1994] par exemple, a développé un prototype de portfolio de cours, qui a emprunté sa structure aux dossiers de projets de recherche et dont l’unité d’analyse n’était pas une session/un devoir/un programme mais un acte entier de création et de réalisation d’un cours. La logique déterminant les composantes d’un tel portfolio est la suivante : (i) objectifs et intentions du cours (par exemple, sous une forme d’un syllabus), (ii) réalisation du cours, instruments d’apprentissage (par exemple, le matériel utilisé, les méthodes d’enseignement et d’apprentissage, les devoirs réalisés par les étudiants, etc.), (iii) résultats (« témoignages » des progrès des étudiants) [cf. aussi Pratt, 1997]. Or, l’évaluation par les pairs d’un dossier ainsi composé est capable de délivrer une information complémentaire à celle issue des ratings, surtout sur les aspects insuffisamment évalués par ces derniers, tels que le contenu et la conception.

En ce qui concerne la cohérence des résultats de peer review, il existe beaucoup moins de recherches sur sa fiabilité, sa validité et ses biais que des études sur les mêmes caractéristiques des ratings. Traditionnellement, on estime que les professeurs qui réalisent une évaluation doivent être au minimum trois pour que les résultats de peer review soient fiables [French-Lazovik, 1981].326 La validité de peer review est significative et, en moyenne, aussi élevée que la validité des ratings [Kremer, 1990 ; Centra, 1993].327 Les biais qui peuvent apparaître lors de l’évaluation par les pairs sont moins ambigus et leur influence sur les résultats est plus claire. Mais pour la même raison, ces biais sont plus facilement contrôlables. Par exemple, les distorsions liées à l’activité d’influence des enseignants évalués, la crainte des professeurs d’abroger leurs relations amicales avec ceux qu’ils évaluent, l’influence de l’avis des étudiants sur les jugements des professeurs évaluateurs328 peuvent être atténuées et même éliminées lorsque ces derniers ne sont

326_{L’étude de Root [1987] rapporte la fiabilité de peer review pour trois personnes au niveau de 82% et pour six personnes –} 90.1% ; l’estimation de la fiabilité pour trois personnes par Kremer [1990] est 50%.

327_{Les corrélations moyennes que Feldman [1989] présente dans sa méta-analyse sont assez fortes pour les paires suivantes :} l’évaluation par les étudiants et celle par les collègues – 55%, par les étudiants et les observateurs externes –50%, par les administrations et les collègues – 48%. Par contre, tout comme dans le cas des ratings, l’évaluation par les collègues et observateurs externes n’est que très faiblement corrélée à l’autoévaluation.

328_{En effet, les professeurs, en évaluant la qualité de l’enseignement de leurs collègues, tirent (souvent inconsciemment)} l’information d’autres sources que celles qu’ils sont censés observer au cours de l’évaluation. Une de ces sources d’information est la réaction des étudiants. Par exemple, Fink [1984], ayant analysé les données dans 30 départements géographiques, a décelé que les professeurs qui réalisaient l’évaluation, basaient souvent leurs jugements sur des conversations avec des étudiants et non sur leurs propres observations de la performance de l’universitaire évalué. De plus, 50% de ces professeurs avaient pris connaissance des résultats de l’évaluation par les étudiants, avant de passer à l’appréciation. Mais ce cas démontre à nouveau

Chapitre 4 : Le rôle conjoint des incitations extrinsèques et intrinsèques dans la distribution des efforts entre les tâches intra-universitaires

pas les collègues immédiats de l’enseignant évalué.329 Il est cependant clair que le « pair- évaluateur » ayant ses propres méthodes d’enseignement, celles-ci peuvent influencer ses jugements quant à l’efficacité des méthodes utilisées par le professeur évalué. Ceci représente une imperfection plus difficile à contrôler.

Dans le document Contrats de travail et problèmes d'allocation des ressources dans les universités russes - Une approche en termes des modèles multitâches (Page 111-113)