Risques de biais - Explications possibles de non-réplication

CHAPITRE 6 – DISCUSSION

6.3 Explications possibles de non-réplication

6.3.3 Risques de biais

Biais de sélection : Le biais de sélection survient lorsque la sélection des participants

prenant part à une étude ou leur chance de rester dans l’étude provoque des associations systématiquement différentes de ce qui aurait été obtenu si toute la population cible était incluse dans l’étude (249). Le processus de sélection peut introduire un biais de collision qui peut mener à des estimations biaisées d’associations génétiques (250). Le biais de collision, aussi référé par le biais de sélection structurelle, survient lorsqu’on conditionne la participation à l’étude sur un effet commun (collisionneur) de (i) l’exposition et l’issue ou (ii) de deux autres variables – l’une associée à l’exposition et l’autre associée à l’issue (aussi référé par le biais en M) (249).

Cette instance peut être présente dans l’étude de Melka et al. (30) où l’échantillon analytique provenait du SYS où les participants étaient sélectionnés afin d’obtenir une proportion de 50% de participants exposés à la fumée de cigarette durant la grossesse (236). La Figure 1 illustre un biais de sélection où la sélection dans l’étude est un collisionneur dans l’association

entre les variants génétiques des participants et l’IMC et la PAS. L’exposition à la fumée secondaire durant la grossesse est associée à l’adiposité (251) et à la pression artérielle (252). Des variants génétiques de la mère affectant la propension à fumer seront également plus présents chez le participant. De cette façon, il est possible que la sélection des participants sur la base de leur exposition à la fumée secondaire durant la grossesse ait induit une association entre des variants génétiques affectant la propension à fumer et l’IMC et la PAS. Cependant, on remarque que les variants identifiés dans l’étude SYS ne sont pas connus pour influencer la propension à fumer, réduisant la probabilité qu’ils aient été identifiés en raison d’un biais de sélection.

Figure 1. Illustration d’un biais de sélection pour l’association entre X et Y. X représente l’exposition (variants génétiques), Y représente l’issue (IMC/PAS), M et M* représentent des variables non mesurées (variants génétiques de la mère et l’exposition à la fumée secondaire durant la grossesse, respectivement), et S représente la sélection dans l’étude. Dans cet exemple, X ne cause pas Y, mais ils deviendront associés en conditionnant l’association sur S qui est un effet commun 1) de M* qui est associé à Y et 2) de M qui est associé associés à X.

Du côté de l’étude NDIT, le principal risque biais de sélection provient de la nature longitudinale des données collectées. Le biais de collision peut jouer un rôle dans les études longitudinales d’associations génétiques dans la mesure où conditionner sur la rétention dans l’étude peut introduire une corrélation artificielle entre une variant génétique et une issue (250). L’instance la plus simple à représenter consiste à ce que les variants investigués (X) soient associés à un phénotype connexe (Z) qui, comme l’issue d’intérêt (Y), influence la rétention dans l’étude

X

Y

M*

M

(S) (Figure 2). D’autres instances plus complexes de bais de collision incluant le biais en M peuvent survenir lorsque des données longitudinales sont utilisées pour investiguer des associations génétiques (250). L’association entre les variants génétiques étudiés et un phénotype connexe affectant la rétention dans l’étude est nécessaire à toutes ces instances. Des variants génétiques sur les gènes PAX5 et MTCH2 ont été respectivement associés à la dépression (253) et à la névrose (254), deux phénotypes possiblement en mesure d’affecter la rétention dans les études longitudinales (255). Toutefois, les symptômes de dépressions ne semblent pas affecter la rétention dans l’étude NDIT (Chapitre 5, Table S1).

Figure 2. Illustration d’un biais de sélection pour l’association entre X et Y en raison de la perte au suivi. X représente l’exposition (variants génétiques), Y représente l’issue (IMC/PAS), Z représente un phénotype affecté par l’exposition, et S représente la sélection à l’étude (rétention dans l’étude). Dans cet exemple, X ne cause pas Y, mais ils deviendront associés en conditionnant l’association sur S qui est un effet commun de X et d’Y.

Biais de confusion : Les études d’association génétique sont moins vulnérables au biais de

confusion comparativement aux études observationnelles n’ayant pas des variants génétiques comme exposition. Le biais de confusion survient lorsqu’une variable influence à la fois l’exposition et l’issue à l’étude, sans être dans le chemin causal et que cette variable est ignorée dans l’analyse. Or, il est peu probable qu’une variable affectant l’issue investiguée puisse aussi influencer la distribution des variants génétiques qui sont déterminés au hasard à la naissance.

X

Y

S

Z

Comme mentionné plus en détail à l’Annexe A, la stratification de population peut introduire un biais de confusion dans les études d’association génétique. Ce concept fait référence aux différences de fréquences alléliques qui peuvent être observées dans une population d’étude en raison de la présence d’individus provenant de diverses ancestralités. Il est peu probable que ce facteur ait influencé les résultats de la SYS ou de l’étude NDIT. Les participants recrutés dans la SYS devaient obligatoirement avoir des parents et grands-parents provenant d’origine canadienne- française nés dans la région du Saguenay-Lac-St-Jean, réduisant le risque de différences d’ancestralité dans l’échantillon (236). De plus, trois participants ont été exclus de l’étude en raison d’une analyse des composantes principales et les graphiques quantile-quantile effectués dans la SYS ne suggèrent pas la présence d’une stratification de population résiduelle (30). Dans l’étude NDIT, l’ajout des cinq premières composantes principales aux modèles statistiques en analyse de sensibilité n’affectait pas les résultats de l’étude, indiquant un faible risque de biais de confusion en raison de la stratification de population dans NDIT.

Biais d’information : Le biais d’information fait référence à une famille de biais se

rapportant à des écarts comparativement à la vérité quant à la collection, le rappel ou le processus de gestion des données d’une étude (256). Un biais de rappel est peu probable dans la SYS ou l’étude NDIT puisque l’exposition (génotype) et l’issue (PAS et IMC) ne sont pas des variables rapportées directement des participants, mais sont plutôt mesurées. Dans les études d’association génétique, un biais d’information peut provenir de la mauvaise classification du génotype des participants en raison des processus de génotypage utilisés qui ne sont pas précis à 100% des cas. Tous les participants inclus dans la SYS et l’étude NDIT avaient un taux de génotypage des marqueurs supérieur à 97% et 98% respectivement, excluant les individus aux échantillons d’ADN plus difficiles à génotyper. Advenant tout de même la présence d’erreur de génotypage, ces erreurs de classifications seraient probablement non-différentielles puisqu’il est peu probable que cette erreur diffère selon les niveaux d’IMC ou de PAS des participants. Lorsque présent, ce genre d’erreur produit une diminution des effets estimés. Un biais d’information survenant en raison d’une erreur de classification des issues provenant de la connaissance préalable du statut d’exposition est également peu probable puisque les techniciens chargés des prises de mesure d’IMC et de PAS dans les deux études ne pouvaient être au courant du génotype des participants. En somme, il existe un faible risque de biais d’information dans les deux études en raison d’erreurs de génotypage qui ferait en sorte de sous-estimer la force des associations investiguées.

Surestimation d’effet génétique (Winner’s Curse): Le processus de sélection de deux des

cinq variants proposé par l’étude SYS pourrait avoir causé une surestimation de l’association génétique et subséquemment empêché sa réplication (phénomène du Winners’s Curse décrit dans la section 3.5). En effet, rs16933812 (PAX5) et rs7638110 (MRPS22) n’ont pas été sélectionnés à partir de la littérature, mais plutôt parce qu’ils constituaient deux seuls variants parmi 530 000 ayant atteint le seuil de signification pangénomique (5×10-8_{) pour leur association avec l’IMC ou}

la masse adipeuse totale à partir des données du SYS. Compte tenu de l’échantillon modeste du SYS (n=598), il est peu probable que cette étude avait la puissance statistique nécessaire à la découverte de ces deux associations. Puisque l’effet estimé des variants sur les traits d’intérêt est directement corrélé à la significativité statistique, les associations découvertes sont enrichies de variants présentant un effet surestimé dans l’échantillon examiné dû à la chance (38). Les associations souffrant du Winners’s Curse sont souvent non répliquées, ou si elles le sont, la taille de l’association répliquée est plus modeste que celle rapportée dans l’étude initiale.

Deux observations supportent l’hypothèse que les résultats associés avec rs16933812 (PAX5) et rs7638110 (MRPS22) et l’IMC soient des faux positifs dû au Winner’s Curse. Premièrement, aucun variant sur les gènes PAX5 ou MRPS22 n’a été identifié dans les GWAS d’IMC publiées, incluant une méta-analyse ayant identifié 751 nouveaux variants chez un peu moins de 700 000 individus (134). Or, on s’attend à ce que les méta-analyses ayant une grande taille d’échantillon auraient été en mesure d’identifier les associations détectées au sein de l’échantillon inférieur de l’étude SYS (n=598). Deuxièmement, en comparant les résultats des modèles pour l’IMC dans l’étude SYS, on observe que les coefficients estimés pour les variants rs16933812 (PAX5) et rs7638110 (MRPS22) sont supérieurs à ceux des trois autres variants rs9930333 (FTO), rs7120548 (MTCH2) et rs17773430 (MC4R) ayant été sélectionnés à partir d’études antérieures. Or, advenant que l’estimation de l’effet pour ces deux variants ait été près de l'effet réel, ceux-ci auraient dû montrer des effets estimés plus faibles comparativement aux variants sur FTO, MTCH2 et MC4R. Ces derniers ont été identifiés parmi les premiers associés à l’IMC par GWAS et ont été subséquemment rapportés à multiples reprises dans la littérature suggérant une taille d’effet plus grande et donc plus facile à identifier.

En ce qui concerne les variants sur PAX5 et MRPS22, en plus d’avoir un IMC plus élevé (surestimation), il est possible que les individus porteurs des allèles de risque pour les deux variants

aient également des niveaux de PAS plus élevés comparativement aux non porteurs. L’IMC aurait un rôle de variable intermédiaire entre les variants et la PAS en raison du lien bien documenté entre l’adiposité et la PAS. Ainsi, l’association des variants sur PAX5 et MRPS22 avec et la PAS observée par l’étude SYS pourrait être reliée indirectement à la surestimation de leur effet sur l’IMC.

Dans le document Variants génétiques associés à l’adiposité et à la pression artérielle : une réplication (Page 96-101)