• Aucun résultat trouvé

Prenant acte des critiques formulées à l’encontre de l’idée d’exactitude, en particulier du fait qu’il n’est jamais possible de connaître avec certitude l’erreur de mesure affectant un résultat donné, certains défenseurs de l’approche fréquentistes ont récemment mis en avant un nouvel indicateur de performance, le « taux de succès » d’une procédure49. Il s’agit d’un concept sta-

tistique qui caractérise la tendance d’une procédure de mesure à évaluer avec succès la valeur

44. Mayo(1996), p.83. 45. Mayo(1996), p.83.

46. Lindley cité par Mayo,Mayo(1996), p.83. 47. Mayo(1996), p.83

48. Mayo citant Kyburg,Mayo(1996), p.83. La citation est tirée deKyburg(1993), p.147. 49. Voir par exempleWillink(2010a), p.6.

5.4 De l’exactitude au taux de succès 147 PSfrag replacements ˆ χ ˆ χ P ( ˆχ) P ( ˆχ) I95%= [a, b] I95%= [a, b] a a x b x b (i) (ii) valeur vraie valeur vraie χ χ

Intervalle correct : χ ∈ I95% Intervalle incorrect : χ /∈ I95%

Figure 5.2 – Illustration du « taux de succès » d’une procédure. Pour un intervalle d’incertitude donné, deux options sont possibles. (i) L’intervalle contient la valeur vraie de la grandeur visée. On parle dans ce cas d’un « succès ». (ii) L’intervalle ne contient pas la valeur vraie de la grandeur visée. On parle alors d’un « échec ». Un processus de mesure consiste à répéter n mesurages d’une grandeur, et à construire l’intervalle d’incertitude associé aux données expérimentales obtenues. Si ce proces- sus de mesure est lui-même répété, les intervalles d’incertitude obtenus différeront en fonction des cas. Par conséquent, un même processus de mesure peut aboutir parfois à des succès et parfois à des échecs. Le « taux de succès » du processus de mesure est défini par la fréquence limite avec laquelle celui-ci aboutirait à un suc- cès s’il était répété à l’infini. (Précisons que les intervalles d’incertitude présentés ici sont, pour l’exemple, des intervalles de crédibilité bayésiens).

vraie de la grandeur visée. Nous avons vu que l’expression d’un résultat de mesure sous forme probabiliste passe par l’écriture d’un intervalle d’incertitude, qui peut prendre plusieurs formes. Cela peut être un intervalle de confiance fréquentiste, un intervalle de crédibilité bayésien, ou encore l’intervalle dit « élargi » qui est présenté dans le GUM et qui prend une forme hybride empruntant aux deux intervalles précédents. Quelle que soit la nature de l’intervalle, deux op- tions – et deux options seulement – sont possibles. Il se peut (i) que l’intervalle contienne la valeur vraie de la grandeur visée. Dans ce cas, l’intervalle est correct : on parle d’un « succès ». Il se peut autrement (ii) que l’intervalle ne contienne pas la valeur vraie de la grandeur visée. Dans ce cas, on parle d’un échec (voir figure5.2). Un même processus de mesure, lorsqu’il est répété, ne produit pas à chaque fois le même intervalle d’incertitude, en raison de la variabilité des résultats expérimentaux. Par conséquent, il est susceptible d’aboutir parfois à un succès et d’autres fois à un échec. Dès lors, on peut définir le taux de succès d’un processus de mesure donné de la façon suivante : il s’agit de la fréquence limite avec laquelle le processus aboutirait à un succès s’il était répété à l’infini. De par la définition même du taux de succès et son appel à des fréquences limites, celui-ci apparaît immédiatement comme un concept fréquentiste ; de

148 Chapitre 5 :Discussion : les ramifications philosophiques du débat statistique par son appel aux valeurs vraies, il s’inscrit également dans une tradition objectiviste.

Rappelons, sur la base de ce que les deux chapitres précédents ont montré, que l’intervalle de probabilité effectivement produit est associé à une probabilité p, cette probabilité pouvant être un niveau de confiance ou de crédibilité, ou une « probabilité élargie », selon l’approche adoptée. Ce qu’affirme Willink, c’est que le taux de succès d’une procédure de mesure caracté- rise d’une part la performance effective de la procédure, et que la probabilité associée à l’inter- valle d’incertitude correspond à la performance attendue de la procédure50. Willink propose alors le critère d’évaluation suivant : il n’est acceptable d’associer une probabilité p à l’inter- valle d’incertitude concerné que si celle-ci est au moins égale au taux de succès de la procédure par laquelle l’intervalle a été obtenu51. Il s’agit là d’un test des méthodes statistiques de dé-

termination des intervalles d’incertitude : si une méthode statistique produit des intervalles auxquels est associée une probabilité p, alors même que le taux de succès de la méthode est inférieure à cette probabilité, c’est que la méthode statistique employée n’est pas satisfaisante. Les fréquentistes reconnaissent bien entendu qu’il n’est pas possible, en général, de déter- miner si un intervalle est un succès ou un échec, pour la raison maintes fois rappelée qu’il faudrait pour cela connaître la valeur vraie de la grandeur visée, alors même que celle-ci est inconnue, puisque la mesure effectuée a précisément pour but de l’évaluer. Il est donc im- possible, en général, de déterminer le taux de succès effectif d’une procédure. Cependant, il demeure possible de procéder par étalonnage, en testant les différentes méthodes sur des gran- deurs considérées comme bien connues ; il est également possible d’évaluer ces méthodes au moyen de simulations numériques, en les testant sur des cas fictifs dans lesquels la valeur vraie de la grandeur mesure est fixée à l’avance. Ces simulations visant au test du taux de succès des procédures fréquentiste et bayésiennes ont fait l’objet de nombreuses discussions, en particulier dans les pages de la revue Metrologia où certains défenseurs de l’approche fréquentiste, parmi lesquels Willink, ont cherché à dévoiler des exemples de situations où l’approche bayésienne – en particulier celle développée dans le supplément 1 du GUM – est mise en échec52, ce à quoi

50. « Supposons qu’un client reçoive un intervalle spécifique [a, b] comme un intervalle d’incertitude à 95% pour un mesurande Y . [...] le client est muni de la proposition “a ≤ Y ≤ b” et de l’affirmation selon laquelle cette proposition a une probabilité 95% d’être vraie. Une conséquence naturelle de cela est que le client s’attendra à ce que dans 95% d’occasions indépendantes à laquelle ils recevrait une telle proposition, la proposition en question serait vraie. »,Willink(2010a), p.6.

51. Il nous faut ici ouvrir une parenthèse, et une parenthèse seulement, à propos d’un point qui, en toute rigueur, ne relève pas simplement du détail. En effet, dans notre description de l’approche traditionnelle, nous avons répété à l’envi que le modèle fréquentiste ne permet pas de formuler un résultat par un seul constat probabiliste, car il faut y adjoindre un traitement différent des erreurs systématiques. Par conséquent, la discussion que nous menons ici semble impossible à appliquer à l’approche traditionnelle. De fait, Willink s’est efforcé de moderniser l’approche traditionnelle de façon à la rendre compatible avec l’exigence contemporaine d’une composante unique d’incerti- tude, régie par un modèle entièrement probabiliste. Il procède pour cela à une extension des conditions d’application du fréquentisme, de façon à concevoir les erreurs systématiques elles-aussi comme le produit d’un tirage aléatoire parmi une population statistique parente dont on pourrait décrire la distribution de probabilité. L’extension que propose Willink, à défaut d’être effectivement appliquée en métrologie, conduit à prendre en compte la nature collective de l’activité scientifique, et permet d’intégrer à l’analyse la composante sociale de la mesure. Nous ne pouvons pas développer ici ce point, même si nous y reviendrons, à partir d’un objet différent, à la partieIII. Nous renvoyons àGrégis et de Courtenay[2016] (à paraître) pour une discussion détaillée de ce sujet.

5.4 De l’exactitude au taux de succès 149 leurs homologues bayésiens se sont attachés à répondre53. Les fréquentistes qui défendent le

concept de taux de succès ne prétendent nullement qu’il est possible d’évaluer celui-ci par une confrontation directe entre le résultat de mesure et la valeur vraie de la grandeur visée – confrontation qui est illusoire. En revanche, ils affirment que l’intérêt de ce critère réside dans le fait que l’on peut contrôler de façon indépendante la fiabilité de la procédure, en la testant en amont sur d’autres cibles que celle qu’elle servira ensuite à mesurer.

Nous pouvons voir dans l’attachement au taux de succès dans la littérature métrologique contemporaine, une reformulation de l’objectif d’exactitude du fréquentisme traditionnel. Cer- tes, l’erreur d’une mesure est inconnue, et avec elle l’exactitude du processus de mesure. Cepen- dant, si l’on sait que les méthodes employées présentent un taux de succès qui a été préalable- ment attesté et que l’on peut garantir avec une certaine sûreté, il est alors justifié de prétendre que la largeur de l’intervalle probabiliste déterminé par la méthode est une bonne évaluation de l’exactitude de mesure. Le taux de succès d’une procédure est ainsi le biais par lequel on peut garantir la confiance que l’on accorde à un résultat de mesure. La probabilité qui accompagne le résultat de mesure présente un intérêt non pas parce qu’elle rend compte de la croyance de l’expérimentateur mais parce qu’elle témoigne de la performance de la mesure. Selon les fré- quentistes qui défendent l’importance du critère du taux de succès, celui-ci est le vecteur par lequel on s’assure de l’objectivité de l’entreprise de mesure.

Dans la description de son attachement au taux de succès, Willink commente la façon dont il perçoit l’interprétation épistémique des probabilités. L’édifice bayésien classique admet une thèse relative au rapport entre croyance et probabilité54, qui peut prendre une forme faible

et une forme forte. Dans sa forme faible, la thèse affirme que certaines probabilités sont des degrés de croyance. Dans sa forme forte, elle affirme que toutes les probabilités sont des degrés de croyance. Willink s’élève contre ces deux thèses en affirmant que « bien qu’une probabi- lité implique un degré de croyance, un degré de croyance n’implique pas une probabilité »55.

Willink ne remet pas en cause l’existence d’un lien fort entre probabilité et degré de croyance, mais il estime que ce lien ne prend pas la forme que lui donnent les bayésiens. Ce qu’il ré- fute, c’est que la probabilité soit identifiée à un degré de croyance. Certes, il est possible de chercher à quantifier les degrés de croyance (rationnels) à partir de la propension des agents à s’engager rationnellement dans un pari. Cependant, Willink défend que seule la notion d’espé- rance statistique permet de comprendre pourquoi cette quantification a un sens : si le degré de croyance de l’agent correspond effectivement à la fréquence relative limite de succès du pari, alors l’espérance de gain de l’agent est positive, ce qui le justifie dans sa croyance. Or, Willink rattache l’espérance statistique à l’interprétation fréquentiste au travers de la loi faible des grands nombres. C’est pourquoi l’interprétation épistémique lui semble en définitive dépendre de l’interprétation fréquentiste56. Si un agent est prêt à s’engager rationnellement dans un pari, c’est qu’il pense que son espérance de gain est positive. Selon l’interprétation de Willink, le de- gré de croyance de l’agent n’est pas la probabilité (épistémique) attachée au pari, mais est ce que

53. Lira(2008) ;Possolo, Toman et Estler(2009) ;Lira(2009) 54. Drouet(2016)

55. Willink(2013), p.38. 56. Willink(2010c), p.344.

150 Chapitre 5 :Discussion : les ramifications philosophiques du débat statistique l’agent croit être la probabilité (fréquentiste) de l’issue du pari qui lui est favorable. Il y a ainsi une différence notable à entretenir entre une probabilité épistémique qui décrit directement le degré de croyance d’un agent, et le fait de croire qu’une probabilité objective vaut tant ou tant. On distingue ainsi les deux propositions suivantes, qui correspondent à deux interprétations différentes des probabilités57:

(épistémique) « La probabilité p décrit le degré avec lequel je crois que l’évé- nement E va survenir. »

(objectif) « Je crois que la probabilité de l’événement E est p. »

Willink conclut ainsi : « ce n’est pas le concept de croyance qui distingue les statistiques bayé- siennes des statistiques fréquentistes. C’est plutôt la nature des objets sur lesquels porte cette croyance »58. La conception du fréquentisme que défend Willink prend acte de l’importance de la notion de croyance ; seulement, elle n’admet pas cette dernière pour objet. Chez Willink, la confiance est justifiée par des constats probabilistes. Willink distingue ainsi une « assurance pré-mesure » d’une « assurance post-mesure », à partir de l’idée suivante :

La confiance que nous pouvons placer, après la mesure, dans l’idée que nous avons réussi est la même que celle que nous avons placée, avant la mesure, dans l’idée que nous allions réussir.59

Ce faisant, Willink attire notre attention sur une différence de perspective très intéressante entre les deux approches probabilistes, telles qu’elles sont conceptualisées en métrologie. L’in- sistance de Willink sur la notion de taux de succès, ainsi que sa distinction entre assurance pré-mesure et assurance post-mesure révèle un autre type de préoccupation. Elle montre que l’approche fréquentiste est d’abord tournée vers un succès futur. Si rien ne permet de garantir à l’instant présent qu’un résultat est exact, l’approche fréquentiste conserve pour objectif de produire un maximum de résultats les plus exacts possibles. Si les résultats produits se révèlent à terme inexacts, c’est que la méthode employée n’était pas bonne. De fait, les fréquentistes s’orientent en visant une cible virtuelle, qui guide leur entreprise scientifique – d’où leur insis- tance sur la notion de « valeur vraie » d’une grandeur, sur laquelle nous reviendrons dans la prochaine partie. Cette cible constitue un critère d’action.

L’approche bayésienne vise quant à elle à faire la synthèse d’un état de connaissance pré- sent à partir des informations (expérimentales et théoriques) disponibles à l’instant où la me- sure est effectuée. À chaque nouvelle information, les connaissances seront à leur tour actua- lisées. L’ensemble constitue une structure qui permet de supporter rationnellement les déci- sions que devront prendre des agents, à l’instant présent. L’approche bayésienne vise donc la meilleure utilisation possible des informations disponibles dans le présent. C’est pour cela, une fois encore, que certains fréquentistes – dont Willink– estiment qu’elle n’est pas falsifiable : si la connaissance vient à changer, cela ne remet pas pour autant en cause les décisions antérieures des agents, qui demeurent justifiées sur la base des informations disponibles au moment où

57. Je remercie Isabelle Drouet d’avoir attiré mon attention sur cette distinction lors de ses cours menés à la Sorbonne à l’hiver 2011 dans le cadre du master LoPhiSC (Université Paris 1 Panthéon-Sorbonne & Université Paris 4 Paris-Sorbonne).

58. Willink(2010c), p.344, note 1. 59. Willink(2013), p.51 (Willink souligne).

5.5 Conclusion 151