Peut-on déﬁnir un bon indicateur d’évaluation de la recherche ?

2.5 Les indicateurs en question

2.5.2 Peut-on déﬁnir un bon indicateur d’évaluation de la recherche ?

Les "Principes de Berlin"10 _{déﬁnis en 2006 par l’auto-proclamé International} Ranking Expert Group énoncent un certain nombre d’exigences que devraient satisfaire les classements internationaux des établissements d’enseignement supé- rieur :

1. Etre l’une des nombreuses approches de l’évaluation des ressources, des processus et des résultats de l’enseignement supérieur.

2. Etre explicites quant à leur objectif et à leurs publics cibles.

3. Reconnaître la diversité des établissements et prendre en considération leurs diﬀérentes missions et objectifs

8. dans [Gingras, 2008]

9. Y. Gingras dans [Zaccai et al., 2016] page 69

10. Un Groupe d’experts internationaux en classements - IREG [International Ranking Expert Group] a été fondé en 2004 par le Centre européen pour l’enseignement supérieur de l’UNESCO (UNESCO-CEPES) de Bucarest et l’Institute for Higher Education Policy de Washington, D.C. C’est à partir de cette initiative que s’est tenue la deuxième réunion de l’IREG (Berlin, les 18-20 mai 2006) aﬁn de formuler un ensemble de principes concernant la qualité et les bonnes pratiques dans les classements des établissements d’enseignement supérieur - appelés les Prin- cipes de Berlin sur le classement des établissements d’enseignement supérieur - http ://ireg- observatory.org/en/index.php/berlin-principles-french

CHAPITRE 2. LA FONCTION EVALUATION

4. Etre clairs quant à la gamme de sources d’information employées dans les classements et des informations rendues accessibles par chaque source 5. Indiquer les contextes linguistiques, culturels, économiques et historiques

des systèmes d’enseignement qui font l’objet de classements

6. Etre transparents quant à la méthodologie employée pour la création de classements.

7. Choisir les indicateurs en fonction de leur pertinence et de leur validité. 8. Mesurer de préférence, et dans la mesure du possible les résultats plutôt

que les ressources

9. Mettre en évidence les poids assignés aux diﬀérents indicateurs (si employés) et limiter leurs changements.

10. Accorder une attention sévère aux standards éthiques et aux recommandations concernant les bonnes pratiques formulées dans ces Principes.

11. Utiliser des données auditées et vériﬁables chaque fois que cela est possible. 12. Inclure des données qui sont collectées par des procédures appropriées de

conformes à la collecte scientiﬁque de données.

13. Appliquer des critères d’assurance qualité aux processus mêmes de classement.

14. Appliquer des critères organisationnels qui accroissent la crédibilité des classements.

15. Oﬀrir aux consommateurs une compréhension claire de l’ensemble des fac- teurs employés pour la construction d’un classement, ainsi que le choix de la manière dont les classements doivent être présentés.

16. Etre compilés d’une manière qui élimine ou réduise le nombre d’erreurs au niveau des données d’origine, et être organisés et publiés d’une manière qui permette la correction des erreurs et des fautes potentielles.

Bien qu’énoncées initialement pour les classements des établissement d’enseignement supérieur, il nous semble que ces exigences peuvent facilement, sous réserves de quelques adaptations mineures, être étendues à tous types de classements. En outre, il est important de noter que ces principes qui ont le mérite d’exister ne sont que des recommandations à respecter et en aucune façon une méthode qui permette de concevoir un nouveau classement.

D’une manière plus générale, [Gingras, 2008] déﬁnit un indicateur comme une variable mesurable qui vise à appréhender un concept. Ainsi l’indicateur n’est pas le concept lui-même, mais une façon approchée de mesurer dans le temps les changements du concept visé. Il doit donc être fortement corrélé aux caractéristiques

CHAPITRE 2. LA FONCTION EVALUATION

présumées du concept lui-même. Gingras continue en proposant les propriétés sui- vantes pour caractériser un bon indicateur :

— être adéquat à son objet : la mesure est-elle appropriée à l’objet évalué ? Les résultats que produit l’indicateur sont-ils du bon ordre de grandeur étant donné ce que l’on sait par ailleurs ?

— être homogène dans sa mesure.

— respecter l’inertie propre de l’objet : certaines choses variant plus ou moins rapidement, selon leurs caractéristiques intrinsèques (un thermomètre qui, sans raison apparente, enregistre un brusque changement de la température d’une pièce est sans doute mal conﬁguré ou défectueux).

— soutenir une relation monotone croissante entre le concept mesuré et l’indicateur choisi.

Pour continuer nous allons maintenant utiliser le classement de Shanghai pour discuter de la validité de cet indicateur à la lumière des propriétés et principes énoncés précédemment. Ainsi ce classement s’articule autour de l’agrégation des six mesures pondérées comme suit :

1. 20 % - membres du corps universitaire ayant reçu un Nobel ou une médaille Fields

2. 20 % - nombre de chercheurs de l’institution parmi la liste des "plus cités" de Thomson Reuters

3. 20 % - nombre d’articles de l’institution publiés dans les revues Nature et Science

4. 20 % - nombre total d’articles recensés dans le Web of Science de la com- pagnie Thomson Reuters

5. 10 % - nombre d’anciens étudiants ayant reçu un Nobel ou une Médaille Fields

6. 10 % - ajustement des résultats précédents selon la taille de l’institution Ainsi, l’indice se fonde sur l’agrégation de plusieurs mesures hétérogènes (le nombre de publications n’est par exemple pas commensurable avec le nombre de prix Nobel). En outre, il est démontré que les données sur lesquelles il est fondé sont difficilement reproductibles [Florian, 2007]. Ce classement souffre par ailleurs d’un problème d’inertie à travers la variation possible de la position d’une université de plus de 100 rangs dans le palmarès par le seul fait d’attribuer à l’université de Berlin ou à l’université Humboldt le prix Nobel d’Einstein obtenu en 1922. L’influence aujourd’hui d’un prix obtenu il y a aussi longtemps pose en outre question, voir notamment [Enserink, 2007].

De ce fait, les exigences des "Principes de Berlin", qui selon Gingras passent sous silence l’importante problématique de la diversité disciplinaire, sont loin

CHAPITRE 2. LA FONCTION EVALUATION

d’être satisfaites par le classement de Shanghai ou d’autres classements com- parables. De même la majeure partie des indicateurs utilisés aujourd’hui dans l’évaluation de la recherche ne respectent pas les propriétés énoncées par Gingras, voir notamment pour une critique de ces indicateurs l’intervention de Y. Gingras intitulée "Du bon usage des indicateurs", pages 67 à 73 dans [Zaccai et al., 2016] . Dans ce qui précède, nous avons souligné que la question des indicateurs est fortement débattue au sein de la communauté scientifique notamment dans un contexte d’évaluation de la recherche. Nous avons par ailleurs précédemment fait la distinction entre évaluation de la recherche et évaluation du système. Dans ce qui suit nous allons nous interroger sur la notion d’indicateur dans le contexte plus large de l’aide à la décision et discuter des enjeux de ces questions sur la construction de notre fonction d’évaluation. Pour faire la transition avec ce qui précède, nous renvoyons le lecteur à [Billaut et al., 2010] qui remettent également en cause le classement de Shanghai mais en adoptant un point de vue fondé sur l’aide mul- ticritère à la décision. En particulier, leurs conclusions sont que les critères utilisés ne sont pas pertinents, que la méthode d’agrégation présente des problèmes ma- jeurs et que l’exercice souffre d’une réflexion insuffisante sur les questions liées à la structuration du problème.

2.5.3 Des critères d’Evaluation au service de l’Orienation

La question de la construction des indicateurs pose ainsi souvent problème aux chercheurs en aide à la décision (voir par exemple [Marchant et al., 2003] et [Bouyssou et al., 2000]) qui s’interrogent en particulier sur leur crédibilité. En eﬀet, l’intérêt majeur des indicateurs se concentre dans l’image synthétique et compréhensible qu’ils donnent de la réalité. Le problème « [e]st que, de même

qu’il n’existe pas de procédure universelle pour agréger l’information, il n’existe pas de méthode qui ait une validité générale pour évaluer un phénomène »

([Tsoukiàs, 2004], p. 1).

Chaque indicateur, chaque méthode d’évaluation traduit ainsi une stratégie, des priorités et des politiques qui sont établies - généralement sans le savoir - avant l’évaluation elle-même.

Prenons quelques exemples. L’illustration la plus évidente correspond à la moyenne arithmétique des notes d’un élève. L’utilisation de cette méthode admet que l’on accepte que l’étudiant puisse compenser ses mauvaises notes avec ses bonnes notes et donc qu’il se concentre sur les matières où il a des facilités au détriment des autres. En revanche, si on utilise le minimum des notes au lieu de la moyenne (comme dans l’exemple documenté par [Marchant et al., 2003]

CHAPITRE 2. LA FONCTION EVALUATION

et [Bouyssou et al., 2000]), on n’accepte plus la compensation et l’élève aura tendance à se concentrer sur les matières où il est le plus en diﬃcultés.

Derrière chaque méthode d’évaluation ou chaque indicateur on peut ainsi retrouver une stratégie (plus ou moins consciente) qui induit des comportements diﬀérents. Dans le cas de la moyenne, les étudiants auront tendance à se spécialiser dans les matières où ils ont le plus de facilité, alors que l’utilisation du minimum a pour conséquence une uniformisation du niveau vers le bas.

Au travers de plusieurs exemples, [Marchant et al., 2003] mettent en évidence des problèmes de normalisation, de construction d’échelles, de compensation, de monotonie et de signiﬁance propres aux indicateurs. En outre, avec l’apport de la théorie du mesurage (voir notamment [Krantz et al., 1971],[Massonie, 1988], [Martel et Roy, 2002] et [Roberts, 1984]), nous savons qu’il est bien souvent impossible de s’assurer que la construction d’un indicateur ne conduit pas à des situations paradoxales où l’information portée par l’indicateur serait en totale contradiction avec l’observation de la réalité. De ce fait, un indicateur n’aide pas à découvrir la vérité mais au contraire il la construit [Desrosières, 1995]. Les indicateurs aident ainsi à mettre en place une « Politique » en incitant les «

Observés » à s’adapter à l’indicateur.

La fonction Evaluation doit ainsi être perçue dans un contexte qui ne se limite pas à la simple évaluation du système, mais bien comme une composante essentielle de la déﬁnition de la politique nationale de recherche et d’innovation. Dans ce contexte, une attention toute particulière doit être portée sur la construction des indicateurs de l’évaluation pour ne pas risquer d’induire des comportements contre- productifs. C’est d’ailleurs dans ce cadre, que nous proposons d’introduire le terme de systémétrie, qui correspond à la science de la mesure de l’état d’un système pour bien faire la distinction avec scientométrie qui mesure la recherche. Une discussion est proposée en introduction de la partie 2 de ce mémoire.

Chapitre 3

CARTOGRAPHIE

DESCRIPTIVE DU SYSTÈME

NATIONAL FRANÇAIS DU

FINANCEMENT DE LA

RECHERCHE SUR PROJET EN

VUE DE SON ÉVALUATION

"Un bon croquis vaut mieux qu’un long discours". Napoléon 1er

Travaux publiés :

TOURET, R., MEINARD, Y., PETIT, J-C., TSOUKIAS, A. (2018). Cartogra- phie descriptive du système national français du ﬁnancement de la recherche sur projet en vue de son évaluation. Innovations, prépublication, art50I-art50XXXV. https ://www.cairn.info/revue-innovations-2018-0-page-art50I.htm.

CHAPITRE 3. CARTOGRAPHIE DU SYSTÈME FRANÇAIS

Résumé du chapitre

Dans ce chapitre nous proposons une cartographie du système national du financement de la recherche (SNFRI) français. Cette représentation s’appuie sur un modèle fonctionnel et organisationnel du système que nous faisons évoluer à travers l’ajout d’une fonction Evaluation. Cette dernière est conçue avec l’ambition de fournir une analyse de l’impact du système de recherche dans sa globalité plu- tôt qu’un examen qualitatif des projets et des acteurs qui le composent. Cette carte est enfin une attestation empirique de l’existence et de la pertinence de ces fonctions et constitue la première étape d’un travail plus large dont l’objectif final est de construire un modèle de SNFRI capable de l’évaluer et d’appréhender la dynamique évolutive globale du financement de la recherche en France

CHAPITRE 3. CARTOGRAPHIE DU SYSTÈME FRANÇAIS

3.1 Méthodologie

Dans le document Aide à la décision dans l'évaluation des impacts des politiques de financement de la recherche (Page 71-79)