• Aucun résultat trouvé

Le contexte scientifique de l’expérience de Weldon

Dans le document Le concept de biais en épidémiologie (Page 47-51)

PARTIE 1 : DE L’IDEE DE BIAIS AU CONCEPT DE BIAIS

1. Chapitre 1 : Archéologie du concept de biais

1.2 L’expérience du lancer de dés de Weldon :

1.2.1 Le contexte scientifique de l’expérience de Weldon

Le zoologiste et biologiste évolutionnaire, Walter Frank Raphael Weldon (1860- 1906) est un ami et collègue de Karl Pearson (1857-1936) à l’University College de Londres, mais aussi un disciple, comme Pearson, de Francis Galton, les trois étant les fondateurs de la revue Biometrika en 1901. Il est connu pour avoir appliqué la notion de corrélation, héritée de Galton, à la biologie. En effet, après avoir lu l’ouvrage de Galton, Natural Inheritance, publié en 1889, Weldon aurait, d’après K. Pearson22, pris conscience qu’il fallait « établir les preuves » de cette « hypothèse de travail » qu’est la théorie darwinienne. Il va alors appliquer la méthode anthropométrique héritée de Galton aux espèces sauvages, et par là passer de l’anthropométrie à la biométrie : pour Weldon en effet, selon la formule célèbre dans l’histoire de la biologie et des statistiques, « le problème de l’évolution animale est essentiellement un problème statistique » (Cité dans Gayon,1992, p. 207). Dès lors, il va comparer la largeur de la carapace de 400 crevettes dans un premier article publié en 188923, puis, dans un second article de 189224, étudier la corrélation entre la taille de quatre organes, toujours chez les crevettes, et établir un « degré de corrélation » entre deux organes chez le même

22 Pearson, Karl, « Walter Frank Raphael Weldon, 1860-1906 », Biometrika, 5, p. 1-52, 1906.

23 Weldon, W. F. R., « The Variations Occurring in Certain Decapod Crustacea.-- I. Crangon vulgaris »,

Proceedings of the Royal Society of London, vol. 47 / 286‑291, janvier 1889, p. 445‑453.

24 Weldon, W. F. R., « Certain Correlated Variations in Crangon vulgaris », Proceedings of the Royal

47

individu (il établira d’autres « variations corrélées » chez le « crabe enragé » dans un article de 189325). Son expérience de lancer de dés intervient ainsi dans ce contexte d’une tentative de démonstration empirique de la sélection naturelle.

Or, le problème qu’il rencontre en étudiant les populations de crabes (il étudie une population de la baie de Naples et une autre issue de la baie de Plymouth) est qu’en étudiant le coefficient de corrélation pour vingt-trois paires de mesures sur différents caractères du crabe, un caractère (la largeur frontale) se comporte de manière atypique dans la population napolitaine, au sens où la distribution de ce caractère est clairement non gaussienne et asymétrique (c’est une courbe à double bosse26). La question centrale qui occupe donc Weldon, et qui va aussi occuper Pearson et leurs collègues, est donc la suivante, comme le résumera Egon Pearson en 1965 :

«Est-ce que la loi normale s’ajuste à cette distribution et si ce n’est pas le cas, qu’est-ce que cela signifie ? » 27

En effet, comme le dit Gayon, « ce genre de distribution n’était pas analysable avec les moyens de la statistique galtonienne » (Gayon, 1992, p. 213), Galton étant proprement fasciné par ce qu’il appelle la « loi des écarts à la moyenne ». C’est pourquoi Weldon va se tourner vers le mathématicien Karl Pearson, ce qui va marquer le début d’une collaboration mais aussi d’une amitié entre les deux hommes. La résolution du problème par Pearson apparait dans ses « Contributions to the Mathematical Theory of Evolution »28, consacrées à la « dissection des courbes de fréquence asymétriques » et où il va introduire la notion de « moment » pour justement procéder à cette dissection. Comme le dit Gayon :

« la question première qui se pose à un statisticien lorsqu’il est confronté à une distribution non-gaussienne est de savoir s’il a affaire à une population dans laquelle les mesures sont homogènes, c'est-à-dire affectées par le même genre de causes » (Gayon, 1992, p. 214).

25 Weldon, Walter Frank Raphael, « On certain correlated variations in Carcinus maenas », Proceedings

of the Royal Society of London, vol. 54 / 326‑330, 1893, p. 318–329

26 Pour un dessin de cette courbe, voir Magnello, M. Eileen, « Karl Pearson and the Establishment of

Mathematical Statistics », International Statistical Review, vol. 77 / 1, avril 2009, p. 3‑29. L’image est à la page 14.

27 « The question 'does a Normal curve fit this distribution and what does this mean if it does not?' was

clearly prominent in their discussions. », in Pearson, E. S., « Studies in the History of Probability and

Statistics. XIV Some Incidents in the Early History of Biometry and Statistics, 1890-94 », Biometrika, vol. 52 / 1/2, juin 1965, p. 3-18

28 Pearson, K., « Contributions to the Mathematical Theory of Evolution », Philosophical Transactions of

the Royal Society A: Mathematical, Physical and Engineering Sciences, vol. 185 / 0, janvier 1894,

48

Or, c’est précisément le problème que rencontre Weldon : il avoue même à Karl Pearson, dans une lettre datée du 23 avril 1893, qu’il a « eu un choc » (cité dans Pearson, E.S.,1965, p. 9). En effet, Weldon était convaincu que « l’apparente symétrie de la variation chez les animaux montrait que tout « accident » survenait à peu près aussi souvent que n’importe quel autre, et qu’il n’y avait pas, chez tous les animaux [qu’il avait] rencontrés, de « tendance », comme les biologistes le disent, « à varier dans une direction plutôt qu’une autre » (cité dans Pearson, E.S.,1965, p. 9). Weldon va alors explorer le problème « d’une manière empirique, à la fois en jetant des dés et en calculant les termes d’un nombre de distributions binomiales, N (q+p)n avec p ≠ q. » (cité dans Pearson, E.S.,1965, p. 9). Weldon va alors calculer l’expansion (0,6+0,4)20 puis (0,7+0,3)20, ce qui va effectivement provoquer un choc chez lui :

« J’espérais que si un organe varie dans une direction particulière – c'est-à-dire si p est plus grande que q – l’asymétrie de la courbe donnerait une sorte de mesure de la différence entre les deux ; et qu’une sorte de cinétique de la variation [« kinetic of variation »] pourrait être construite. Mais si p est deux fois plus grande que q, avec les résultats abominables ci-joints, ce maigre espoir tombe en lambeaux. » (Cité dans Pearson, E.S.,1965, p. 9).

Parallèlement à ses calculs d’équation, Weldon lance aussi des dés : plus précisément, en bon empiriste qui entend disposer de données quantitatives solides, il réalise une expérience qui consiste à lancer 26 306 fois 12 dés afin de « juger si les différences entre une série de fréquences de groupe et une loi théorique, prise comme un tout, étaient ou n’étaient pas supérieures à ce qui peut être attribué aux fluctuations hasardeuses d’un échantillon aléatoire » (« to judge whether the differences between a series of group frequencies and a theoretical law, taken as a whole, were or were not more than might be attributed to the chance fluctuations of random sampling. »29), car, à l’époque, il n’existe pas de test, comme celui du 2, pour répondre simplement et rapidement à cette question. Dès lors Weldon se retrouve face à trois explications possibles, explicitées ainsi par E. S. Pearson :

« - La divergence entre la théorie et l’observation n’est pas supérieure à celle que l’on pourrait attendre d’un échantillonnage aléatoire.

- Les données sont hétérogènes, et composées de deux ou de plusieurs distributions normales.

49

- Les données sont homogènes, mais il y a une réelle asymétrie dans la distribution des variables mesurées. » (Pearson, E.S.,1965, p. 9).

La troisième option est sans doute « la plus difficile à accepter, étant donné le prestige qui entourait à l’époque la loi normale » (Pearson, E.S.,1965, p. 9). Or, une des avancées essentielles de K. Pearson dans ses « Contributions to the Mathematical Theory of Evolution », est justement de présenter une « méthode pour analyser des courbes de fréquence « anormales, c'est-à-dire non-gaussiennes » (Gayon,1992, p. 214). C’est ainsi qu’en disséquant la courbe asymétrique en deux courbes normales, Pearson montre qu’il faut retenir la deuxième option, c'est-à-dire que les données sont hétérogènes et composées de deux courbes normales, ou en d’autres termes, qu’il y a bien deux populations homogènes (deux « races » de crabes) distinctes dans la baie de Naples. Comme le montre Eileen Magnello :

« après que Pearson eut examiné les courbes asymétriques de Weldon dérivées de ses données sur les crabes de Naples, il réalisa qu’une méthode objective pour mesurer la qualité de l’ajustement [« goodness-of-fit »] manquait encore pour les distributions qui ne se conformaient pas à la loi normale » (Magnello, 2009, p. 18).

Ce test est celui du 2, que Pearson expose en 1900, et qui est précisément fait pour tester la qualité d’ajustement des courbes dissymétriques que l’on retrouve souvent en biologie et en économie (Magnello, 2009, p. 18). Autrement dit, c’est un test que les statisticiens d’aujourd’hui qualifieraient de non-paramétrique, au sens où il ne fait aucune hypothèse sur la loi de probabilité sous-jacente à la distribution des données, ce qui permet d’élargir considérablement le champ des méthodes statistiques, puisque les fréquences peuvent être connues ou supposées connues a priori, comme dans le cas d’un lancer de dés, ou au contraire inconnues. Si le texte de Pearson que nous allons maintenant étudier a été maintes fois analysé par les statisticiens et les historiens de la statistique, il n’intéresse néanmoins notre propos que dans la mesure où le mot « biais » apparait ou réapparait après avoir été utilisé par Galton en 1889. Pourquoi ce terme a-t-il disparu pendant une dizaine d’années ?

Il parait bien difficile de répondre à cette question, dont la réponse se situe de toute façon en dehors de notre sujet. Néanmoins, il peut être intéressant de noter qu’un autre terme très proche va constituer un des objets centraux de l’étude de Pearson, au

50

moins de 189530 à 191631 : celui de « skewness », ou sous sa forme adjectivale « skew ». Ainsi Pearson parle-t-il de « skew variation », de « skew curve » ou encore de « skew correlation ». Or, en anglais, si son sens statistique renvoie à la notion d’asymétrie (d’une courbe), « skew », au sens commun du mot, renvoie au caractère oblique d’un angle, ou encore à un parti-pris, un préjugé, ou bien à une distorsion et est considéré par l’Oxford English Dictionary32 comme un synonyme du mot « bias ». En ce sens, on peut émettre l’hypothèse que si le mot « biais » n’apparait plus dans la littérature statistique de l’époque, c’est parce qu’un mot similaire occupe en quelque sorte déjà l’espace conceptuel de cette notion. Mais ceci mériterait une étude à part entière qui serait hors de propos ici, et il est temps d’aborder le texte de Karl Pearson consacré au test du 2.

Dans le document Le concept de biais en épidémiologie (Page 47-51)