• Aucun résultat trouvé

Le biais et la loi normale

Dans le document Le concept de biais en épidémiologie (Page 57-62)

PARTIE 1 : DE L’IDEE DE BIAIS AU CONCEPT DE BIAIS

1. Chapitre 1 : Archéologie du concept de biais

1.3 Le biais comme erreur systématique du plan d’expérience :

1.3.1 Le biais et la loi normale

Fisher va de nouveau utiliser la notion de « biais » dans le chapitre VI, consacré au « Coefficient de corrélation », aux sections 35 et 36, intitulées respectivement : « Transformed Correlations » et « Systematic Errors ». Dans la section 35, Fisher va proposer une technique afin de pouvoir tester correctement s’il existe une association entre deux variables :

«En plus de tester la significativité d’une corrélation, afin de déterminer s’il y a ou non une preuve substantielle d’une association, il est aussi fréquemment requis d’effectuer une ou plusieurs des opérations suivantes, et il est possible

38 « the most sensitive test of the bias», in Fisher, 1950, p. 65. 39 « so much higher odds », in Fisher, 1950, p. 65.

57

pour chacune d’entre elles d’utiliser l’écart-type dans le cas d’une quantité normalement distribuée »41

L’idée consiste à effectuer une certaine transformation mathématique afin que la distribution des observations suive une loi normale, donc susceptible d’être traitée avec les tests statistiques : c’est ce que l’on appelle en statistiques la « transformation de Fisher » (ou la « transformation  de Fisher »42). En effet la distribution d’échantillonnage du coefficient de corrélation r de Pearson ne suit pas la distribution normale car elle a une variance inégale et est fortement asymétrique : la transformation de Fisher permet de convertir le r de Pearson en une variable  distribuée normalement (symétrique et de variance égale). Cette transformation permet alors de calculer les intervalles de confiance du coefficient de corrélation de Pearson, et donc de tester la significativité des différences entre des coefficients de corrélation. Fisher va ainsi donner la représentation graphique de r (Figure 1-4) et de  (Figure 1-5) pour 8 paires d’observations faites sur des populations qui ont un coefficient de corrélation de 0 et de 0.8 :

41 « In addition to testing the significance of a correlation, to ascertain if there is any substantial evidence

of association at all, it is also frequently required to perform one or more of the following operations, for each of which the standard error would be used in the case of a normally distributed quantity », in Fisher,

1950, p. 197.

42 La formule de cette transformation remarquable est : = 1

2 𝑙𝑛 [(1 + r)/(1 −r)]. Fisher explique cette

transformation et son rapport aux autres distributions de fréquence dans son article : Fisher, Sir Ronald Aylmer, « On a Distribution Yielding the Error Functions of Several Well Known Statistics », Proceedings

58

Figure 1-4 : Courbes de distributions du coefficient de corrélation r pour 8 paires d’observation (Fisher)43

59

Figure 1-5: Courbes de distributions de r

transformées en  pour 8 paires

d’observations (Fisher)44

60

La différence entre les deux figures est très marquée. Ainsi, selon Fisher : « The two curves in Fig. 7 are widely different in their modal heights; both are distinctly non-normal curves; in form also they are strongly contrasted, the one being symmetrical, the other highly unsymmetrical. On the contrary, in Fig. 8 the two curves do not differ greatly in height; although not exactly normal in form, they come so close to it,(…), although the curve itself is as symmetrical as the eye can judge of, yet the ordinate of zero error is not centrally placed. » (Fisher, 1950, p. 200-201).

Pour Fisher cet écart par rapport à l’erreur zéro, c'est-à-dire par rapport à l’estimation de la moyenne des valeurs observées, révèle un « petit biais introduit dans l’estimation du coefficient de corrélation tel qu’on le calcule habituellement »45, biais dont il va traiter dans la section suivante consacrée aux « erreurs systématiques ». Dans cette section, Fisher va donner deux méthodes pour corriger le biais de l’estimation, biais dont la valeur augmente en fonction du nombre d’échantillons. Voici la première méthode, purement mathématique :

« La valeur de  obtenue à partir de n’importe quel échantillon est une estimation de la vraie valeur, , qui appartient à la population échantillonnée, tout comme la valeur de r obtenue à partir d’un échantillon est une estimation d’une valeur de la population, p. Si la méthode pour obtenir la corrélation était libre de biais, les valeurs de  seraient normalement distribuées autour d’une moyenne 𝑍̅, dont la valeur s’accorderait avec . En fait, il y a un léger biais qui fait que la valeur moyenne de  est d’une manière ou d’une autre plus grande numériquement que  ; ainsi, la corrélation, qu’elle soit positive ou négative, est légèrement exagérée. Ce biais peut être efficacement corrigé en soustrayant de la valeur  la correction: 𝑝

2 (𝑛′−1)»46

45 « The figure, in fact, reveals the small bias which is introduced into the estimate of the correlation

coefficient as ordinarily calculated », in Fisher (1950), Op.cit., p. 200-201

46 « The value of obtained from any sample is an estimate of a true value, , belonging to the sampled

population, just as the value of r obtained from a sample is an estimate of a population value, p. If the method of obtaining the correlation were free from bias, the values of would be normally distributed about a mean 𝑍̅, which would agree in value with . Actually there is a small bias which makes the mean value of  somewhat greater numerically than ; thus the correlation, whether positive or negative, is slightly exaggerated. This bias may effectively be corrected by subtracting from the value of the correction: 𝑝

61

De même, la deuxième erreur systématique se produit si l’on néglige la correction de Sheppard, correction qui vise à débiaiser le calcul d’une variance empirique d’un échantillon dont les valeurs ont été regroupées par classe de même amplitude. Selon Fisher, quand on transforme r en , il faut prendre la valeur de r qui est trouvée sans la correction de Sheppard, car, sinon, cela compliquerait la distribution. Mais en faisant cela, on va introduire une erreur systématique qui va produire l’effet inverse de la première erreur systématique décrite, c'est-à-dire que la valeur moyenne de  sera plus petite numériquement que . Il est alors possible d’appliquer une correction correspondant à la « moyenne des effets de la correction de Sheppard »47.

Dans le document Le concept de biais en épidémiologie (Page 57-62)