La première démonstration mathématique d’un biais de sélection

PARTIE 1 : DE L’IDEE DE BIAIS AU CONCEPT DE BIAIS

3. Chapitre 3 : Du problème de l’échantillonnage au problème de la validité de

3.1 Le biais de Berkson

3.1.2 La première démonstration mathématique d’un biais de sélection

En fait le problème soulevé par Berkson est un problème purement théorique et proprement statistique, qui est d’ailleurs traité de manière complètement a priori, c'est-à-dire ici algébrique : pour Greenland (1987) il s’agit même de « l’analyse algébrique la plus précoce d’un biais de sélection »15_{. Pour dire les choses plus} clairement, aucun des chiffres qui sont donnés dans les huit tableaux de l’article ne réfère à une quelconque réalité ou à des données hospitalières réelles : il faudra ainsi attendre l’article de Roberts, Spitzer, Delmore, et Sackett en 197816_{pour que la} démonstration empirique, c'est-à-dire fondée sur des données réelles, soit faite de ce biais. Berkson entend en fait montrer – en partant de l’exemple d’un préjugé répandu chez les médecins des années 193017_{qui pensaient que la cholécystite était un agent} qui causait ou qui aggravait le diabète (ce qui conduisait certains à une ablation de la vésicule biliaire comme traitement préventif du diabète) – non seulement que deux maladies peuvent apparaitre comme étant artificiellement corrélées dans le cadre d’une étude cas-témoins effectuée à l’hôpital, comme le souligneront la plupart des commentateurs, mais plus largement que :

« les corrélations trompeuses auxquelles il est fait référence [dans cet article] ne découlent pas d’hypothèses portant sur des forces biologiques, ou sur la sélection directe de probabilités corrélées, mais sont simplement le résultat de la combinaison de probabilités indépendantes »18_.

Il est important de noter à ce stade que Berkson emprunte la notion de «spurious correlation » à Karl Pearson, qui est le premier à l’utiliser dans son article de 189619_{: elle peut être définie comme une corrélation qui est due uniquement à la}

15_{Greenland, Sander. Evolution of Epidemiologic Ideas: Annotated Readings and Concepts.}

Epidemiology Resources, 1987, p. 86.

16 Roberts, Robin S., Spitzer, Walter O., Delmore, Terry, Sackett, David L. , « An empirical demonstration of Berkson’s bias », Journal of Chronic Diseases, vol. 31 / 2, 1978, p. 119–128.

17 La conférence qui précède l’article en question est prononcée en 1938 devant l’American Statistical

Association. Berkson explique en 1955 que l’idée de cet article lui est venue suite à une étude de 1929

menée par Raymond Pearl à partir de données d’autopsie, qui suggérait, à tort, un rôle protecteur de la tuberculose vis-à-vis du cancer du poumon. Cet article serait donc l’explication statistique donnée par Berkson à l’établissement d’une corrélation négative trompeuse (« spurious ») entre tuberculose et cancer du poumon.

18_{« the spurious correlations referred to are not a consequence of any assumptions regarding biologic}

forces, or the direct selection of correlated probabilities, but are the result merely of the ordinary compounding of independent probabilities. », in Berkson, 1946, p. 51.

19_{Pearson, Karl, « Mathematical Contributions to the Theory of Evolution.}_{— On a Form of Spurious}

Correlation Which May Arise When Indices Are Used in the Measurement of Organs », Proceedings of

124

« manipulation des observations » ou encore, comme il la définit dans un cours donné en 1913, comme une « corrélation qui est produite par une opération arithmétique [« a process of arithmetic »] et non par une quelconque relation organique parmi les quantités traitées »20_{. Il faut ajouter que pour Pearson, la causalité}_{n’est qu’un cas} particulier de corrélation, ou plutôt, que la corrélation constitue « la catégorie plus large par laquelle nous devons remplacer la vieille idée de causalité »21_{. Or, c’est} exactement ce que Berkson veut montrer ici : comment une simple manipulation des chiffres ou des données peut conduire à montrer une corrélation alors qu’il n’y en a pas.

Dès lors, pour bien comprendre la portée de la démonstration de Berkson, il convient de la retracer dans le détail. Berkson pose le problème de la façon suivante :

« The authorities of a hospital wish to know whether their accumulated records of incidence, examined statistically, support this practice [ l’ablation de la vésicule biliaire]. On the face of it, it would appear that we have here the typical and elementary problem of the comparison of rates in a fourfold table. » (Berkson, 1946, p. 48).

Berkson dresse alors un tableau 2x2 qui fait apparaitre une différence significative entre la cholécystite et le diabète (de l’ordre de + 1.58%). Mais il soulève aussitôt l’objection selon laquelle le groupe contrôle (ici ceux qui ne sont pas diabétiques) ne soit pas représentatif, et pour l’éviter il va sélectionner au sein du groupe des non-diabétiques ceux qui souffrent d’ « erreurs de réfraction » (autrement dit, de problèmes de vue). Là encore la « différence est positive » (Berkson, 1946, p. 48), de l’ordre de 2.32%. Il ajoute que « bien sûr, dans toute analyse détaillée, nous souhaiterions garder l’âge et le sexe constants, nous renseigner sur la fiabilité du diagnostic, et ainsi de suite »22_{, pour aussitôt préciser son intention : « mais le} problème dont il s’agit dans cet article n’a rien à voir avec ces questions » et il faut

20 Voir à ce sujet l’article de Aldrich, John, « Correlations genuine and spurious in Pearson and Yule »,

Statistical science, 1995, p. 364–376, en particulier p. 365-366.

21_{Pearson, Karl, The Grammar of Science, 3}ème_{édition, Edinburgh, Black, 1910, p. 157. Cité dans Aldrich,}

1995, p. 365.

22_{« Of course, in any detailed analysis we should wish to keep age and sex constant, inquire into the}

125

donc « dans l’intérêt de notre argument, considérer que tous ces facteurs ont été adéquatement contrôlés » 23_{. Pour autant, ajoute-t-il :}

« Même si c’est le cas, est-ce que les résultats permettent de conclure quant à la question de savoir si la cholécystite est biologiquement corrélée avec le diabète ? »24

Berkson rentre alors au cœur de son argumentaire, qui porte ici sur la question de la représentativité de la population hospitalière par rapport à la population générale. Il assigne alors à chaque maladie une probabilité d’incidence (Pd (pour diabète) = 0.01, Pc (pour cholécystite) =0.03, and Pr (pour réfraction) = 0.10) et se fonde sur une population de 10 000 000 de personnes pour distinguer différents cas de figure (ceux qui ont un diabète et rien d’autre, ceux qui ont une cholécystite et rien d’autre, ceux qui ont un diabète et des problèmes de vue, ceux qui ont les trois, ou encore ceux qui n’ont rien). Cela donne le tableau 4 dans son article (Berkson, 1946, p. 51), dans lequel il constitue sa cohorte en fonction de la probabilité différentielle des maladies. Une fois cette population fictive constituée, Berkson fait deux nouveaux tableaux à double entrée Le premier tableau (Berkson, 1946, p. 52) montre clairement qu’il n’y aucune différence entre les trois groupes, que l’on compare le groupe des personnes qui sont diabétiques et qui ont une cholécystite avec le groupe des non-diabétiques ou bien avec le groupe de ceux qui ont des problèmes de vue, puisque la prévalence de la cholécystite est dans tous les cas de 3%, ce qui est normal, puisque selon Berkson, « il n’y a pas de corrélation » (Berkson, 1946, p. 48), alors même que leur taux d’incidence était différent. Mais ce tableau n’est que la prémisse de son argument.

En effet il va ensuite assigner à chacune des trois maladies une probabilité « que leurs victimes soient sélectionnées pour aller à l’hôpital », et considérer que les « probabilités de sélection opèrent de façon indépendante » (Berkson, 1946, p. 48- 49). Ceci va lui permettre de montrer plusieurs choses :

- Tout d’abord, en posant les équations de probabilité pour chaque maladie et en distinguant la population générale (N) et la population de l’hôpital (N’), Berkson montre qu’une personne avec plusieurs maladies a beaucoup plus de chances d’aller à l’hôpital qu’une personne avec une seule maladie ; plus

23_{« But the point referred to in this paper has no relation to such questions, and for the sake of the}

argument we shall consider that all such factors have been adequately controlled. », in Berkson, 1946,

p. 48.

24_{« Even so, do the results permit any conclusion as to whether cholecystitis is biologically correlated with}

126

précisément que la probabilité d’aller à l’hôpital augmente corrélativement avec le nombre de maladies : une personne qui a deux maladies a deux fois plus de chances d’aller à l’hôpital qu’une personne qui n’en a qu’une, une personne qui trois maladies a trois fois plus de chances d’aller à l’hôpital qu’une personne qui n’en a qu’une, et ainsi de suite (Berkson, 1946, p. 49). - Ensuite Berkson va considérer que le taux de sélection (pour aller à l’hôpital)

est égal pour chaque maladie dans la population générale et leur assigner à chacune la probabilité de 0.05, ce qui lui permet de calculer, toujours à partir de la population fictive de 10 000 000 de personnes (N), la population espérée à l’hôpital.

Dans le second tableau (Berkson, 1946, p. 52), ainsi, la corrélation entre la cholécystite et le diabète apparait un peu négative (-0.24%), en raison du fait que si, dans la population générale, l’incidence de la cholécystite était identique chez les personnes diabétiques et chez celles qui avaient des problèmes de vue, ce n’est pas le cas dans la population hospitalière où l’incidence de la cholécystite est inférieure chez les personnes diabétiques par rapport à celles qui ont des problèmes de vue.

Enfin, Berkson va assigner des taux de sélection différents en fonction des maladies : 0.15 pour la cholécystite, 0.05 pour le diabète et 0.20 pour les problèmes de vue. Ceci lui permet de faire un nouveau tableau 2x2 (Berkson, 1946, p. 53) où il apparait que l’incidence de la cholécystite dans le groupe diabétique (8,55%) est presque le double de celle du groupe contrôle (4,72%), ce qui montrerait une corrélation positive entre cholécystite et diabète. Or, nous dit Berkson : « ce ne serait pas représentatif de la population générale et n’aurait aucune signification biologique 25_{», précisément parce qu’il s’agit en réalité d’un problème algébrique, dont} Berkson donne d’ailleurs la formule (Berkson, 1946, p. 53).

Dans le document Le concept de biais en épidémiologie (Page 124-127)