• Aucun résultat trouvé

Le biais et la randomisation

Dans le document Le concept de biais en épidémiologie (Page 62-67)

PARTIE 1 : DE L’IDEE DE BIAIS AU CONCEPT DE BIAIS

1. Chapitre 1 : Archéologie du concept de biais

1.3 Le biais comme erreur systématique du plan d’expérience :

1.3.2 Le biais et la randomisation

Enfin, Fisher va utiliser le mot « biais » dans le chapitre VIII, intitulé « Further Applications of the Analysis of Variance », et plus spécifiquement la section 48 consacrée à la « Technique de l’expérimentation de terrain » (« Technique of Plot Experiment »48), chapitre qui est à mettre en relation directe avec l’autre ouvrage de

Fisher, The Design of Experiments49, notamment son chapitre IV, intitulé : « An

Agricultural Experiment in Randomised Blocks ». Dans ces chapitres, qui traduisent l’expérience acquise par Fisher comme statisticien à la station expérimentale de Rothamsted, poste qu’il a commencé à occuper en 1919, Fisher va insister sur la nécessité de la randomisation afin de pouvoir disposer d’estimations valides :

« La première exigence qui gouverne toutes les expérimentations bien planifiées est que l’expérimentation donne non seulement une comparaison des différents engrais, traitements, variétés, etc. mais aussi un moyen de tester la significativité des différences observées » 50

Le principal moyen consiste d’abord à dupliquer et à répliquer les traitements, de manière à ce qu’on puisse comparer les différences observées entre les différents

47 « the average effect of Sheppard's adjustment », in Fisher, 1950, p. 261. 48 Fisher, 1950, p. 261.

49 Fisher, Ronald A., The Design of Experiments, Edinburgh, Oliver and Boyd, 1935.

50 « The first requirement which governs all well-planned experiments is that the experiment should yield

not only a comparison of different manures, treatments, varieties, etc., but also a means of testing the significance of such differences as are observed. », in Fisher, 1950, p. 261.

62

traitements avec les réplications qui serviront alors d’étalon51. Le problème des expériences en agriculture est en effet qu’il existe une très forte variation quant à la fertilité ou au rendement des différents plants. Or, si l’on veut que « le test statistique de signification soit valide, il faut que les différences observées de fertilité entre les différentes parcelles choisies comme parallèles dans le plan d’expérience soient réellement représentatives des différences entre les parcelles qui ont des traitements différents »52. Et le seul moyen de s’assurer que c’est bien le cas est de « répartir les parcelles complètement au hasard53.

En effet, si l’expérimentateur choisit un « système préarrangé » (« prearranged system ») ou une « répartition systématique » (« systematic arrangement »), il est fort probable que « nos parcelles aient (…) des traits communs avec la variation systématique de fertilité, et alors notre test de signification est complètement vicié »54. La randomisation est ainsi ce qui garantit la validité du test statistique de signification, test qui est fondé sur l’estimation de l’erreur garantie par la réplication des traitements. Cette randomisation permet en effet que « que deux parcelles, quelles qu’elles soient, qui ne sont pas dans une même série, aient la même probabilité d’être traitées de la même manière, et la même probabilité d’être traitée différemment de toutes les façons possibles »55.

Ainsi, en ne répartissant pas les traitements au hasard, cela risque de produire un biais. Fisher va alors décrire le mécanisme de ce biais dans la section 27 du chapitre IV de son ouvrage The Design of Experiments, intitulé explicitement : « Bias of Systematic Arrangements »56. Selon lui, l’effet principal de ce biais consiste dans

une perte d’exactitude (« accuracy ») dans l’estimation de l’erreur :

« Dans n’importe quelle situation particulière, il sera sans doute possible d’assigner à des ensembles de parcelles [« plots »] sur un terrain [« area »]

51 « Consequently all treatments must at least be duplicated, and preferably further replicated, in order that

a comparison of replicates may be used as a standard with which to compare the observed differences. », in Fisher, 1950, p. 261.

52 « For our test of significance to be valid the differences in fertility between plots chosen as parallels must

be truly representative of the differences between plots with different treatments », in Fisher, 1950, p.

261.

53 « to arrange the plots wholly at random. », in Fisher, 1950, p. 264.

54 « for the systematic arrangement of our plots may have (…) features in common with the systematic

variation of fertility, and thus the test of significance is wholly vitiated. », in Fisher, 1950, p. 261-262.

55 « The validity of our estimate of error for this purpose is guaranteed by the provision that any two plots,

not in the same block, shall have the same probability of being treated alike, and the same probability of being treated differently in each of the ways in which this is possible » in Fisher, 1935, p. 71.

63

donné de nombreux traitements de manière à égaliser leur fertilité plus complètement que si l’on procédait par un arrangement au hasard. (…). L’effet d’une telle procédure sur le test de signification peut être conçu en imaginant qu’il est effectué sur un terrain [« area »] soumis à un traitement uniforme, de sorte que les rendements réels ne soient pas affectés par une réallocation des parcelles [« plots »]. Dès lors, dans l’analyse de la variance, la somme totale des carrés reste inchangée, tout comme la portion assignable aux blocs [« blocks »]. Si, dès lors, l’ingéniosité de l’agronome a réussi à diminuer les différences de fertilité entre les traitements, la diminution de la somme des carrés dans cette ligne du tableau aura été complètement contrebalancée par une augmentation de la somme des carrés sur laquelle l’estimation de l’erreur est fondée. L’effet de ce réarrangement aura été de diminuer les erreurs réelles de l’expérimentation, mais au prix de l’augmentation de l’estimation de l’erreur, de sorte que, alors que la précision [« precision »] des comparaisons a été effectivement augmentée, elles apparaitront comme moins exactes [« accurate »] qu’avant, et on aura moins confiance dans les résultats ». (Fisher, 1935, p. 71-72).

Ce passage technique peut être illustré par l’expérience décrite par Fisher dans l’exemple 44 qui est donné dans ses Statistical Methods for Research Workers. L’expérience consiste à tester cinq traitements différents sur vingt bandes de terres, chacun des traitements étant répliqués quatre fois, et la répartition des traitements se faisant au hasard en assignant à chaque traitement une lettre (A, B, C, D, E) et en mélangeant 20 cartes (5 cartes de A, 5 cartes de B, etc.). Fisher utilise alors les données d’une expérience menée par Mercer et Hall, qui porte sur le poids de racines de blettes obtenu pour chaque traitement. Voici les résultats :

64

Figure 1-6 : Poids de racines de blettes obtenus pour 5 traitements différents et répartis sur 20 bandes de terre (Fisher)57

Fisher peut alors calculer la somme des écarts de la moyenne de chaque traitement par rapport à la moyenne générale de tous les traitements. Cela donne : A = + 290

B = + 216 C = - 59 D = - 243 E = -204

Fisher va alors calculer la variance, c'est-à-dire la moyenne de la somme du carré des déviations, ce qui lui permet de montrer que la somme des carrés correspondant au « traitement » sera le quart de la somme des carrés de ces déviations (puisqu’il y a 4 degrés de libertés, c'est-à-dire 5 observations – 1). De même, la somme des carrés des 20 déviations par rapport à la moyenne générale est de 289 766, ce qui donne le tableau suivant:

65

Figure 1-7 : Analyse de la variance appliquée aux poids des racines de blettes en fonction

des 5 traitements (Fisher)58

Fisher peut alors conclure que l’écart type d’une seule parcelle est estimée à 124,1, alors que sa vraie valeur est de 123,5 : ce faible écart, et même cette « quasi- concordance » (« exceedingly close agreement ») entre la valeur estimée et la valeur réelle de l’écart-type illustre selon lui « la manière par laquelle un arrangement des parcelles effectué purement au hasard assure que l’erreur expérimentale calculée est une estimation non-biaisée des erreurs effectivement présentes »59.

Si nous revenons à présent sur le biais soulevé par un arrangement systématique, les choses semblent plus claires : dans ce cas-là, Fisher nous dit qu’il y aura moins de déviations par rapport à la moyenne générale et que donc la somme des carrés pour le traitement sera moins élevée. Or, le problème est que la somme totale des carrés reste inchangée, ce qui fait que la somme des carrés pour les erreurs expérimentales sera plus élevée et donc l’écart-type aussi60. En conséquence de quoi l’estimation sera plus éloignée de la valeur réelle : l’estimateur sera dit « biaisé ». Par exemple, si nous attribuons arbitrairement la valeur 35 226 à la somme des carrés

58 Fisher, 1950, p. 263.

59 « This is an exceedingly close agreement, and illustrates the manner in which a purely random

arrangement of plots ensures that the experimental error calculated shall be an unbiased estimate of the errors actually present. », in Fisher, 1950, p. 263.

60 Pour une description plus abstraite du plan de l’expérience et de son analyse statistique, voir la section

66

dans la ligne « Traitement », à la place de 58 726, la somme des carrés des erreurs expérimentales devient : 289 766 – 35226 = 254 450. La moyenne des carrés, c'est- à-dire la variance, est donc de : 254 450/ 15 = 16 969,33 (au lieu de 15 403). Et l’écart- type, c'est-à-dire la racine carrée de la variance devient √16969.33 =130.3. La vraie valeur étant de 123.5, la valeur estimée de 130.3 est donc très éloignée de cette valeur réelle, ce qui tendrait à prouver que l’estimateur est biaisé : il serait d’ailleurs possible de faire un test statistique pour déterminer si l’estimateur est réellement biaisé.

Dans le document Le concept de biais en épidémiologie (Page 62-67)