• Aucun résultat trouvé

Analyses statistiques

VI. Principe des études génétiques

5. Analyses statistiques

a. Equilibre d’Hardy Weinberg

Lorsque l’on réalise une étude d’association génétique, il est nécessaire de vérifier que chaque SNP est en équilibre d’Hardy Weinberg dans la population étudiée. Ce principe a été indépendamment décrit par le physicien Wilhelm Weinberg (1862-1937) et le mathématicien Godfrey Hardy (1877-1947). Une population est dite en équilibre d’Hardy Weinberg si elle est de taille infinie, c'est-à-dire suffisamment grande pour être gouvernée par les lois de Mendel, si l’espèce est diploïde et dispose d’une reproduction sexuée, si les mariages se font au hasard (panmixie), s’il n’y a ni migration, ni mutation, ni sélection naturelle et que les générations ne se chevauchent pas. Dans ce cas, la fréquence des allèles et des génotypes reste stable au cours des générations et on peut calculer les fréquences génotypiques directement à partir des fréquences alléliques et inversement. Si A et a sont les allèles d’un locus autosomique bi-allélique de fréquence respective p et q, alors p + q = 1 puisqu'il n'y a que 2 allèles. Si dans cette population, les unions entre les individus se font bien au hasard, il va y avoir un mélange aléatoire de gamètes porteurs de l'allèle A ou de l'allèle a, conduisant à 3 génotypes possibles : AA, Aa ou aa. On a alors la fréquence dans la population des génotypes AA = p2, la fréquence dans la population des génotypes aa = q2 et la fréquence des génotypes Aa et aA = 2pq, ce qui nous donne p2 + pq + q2 = 1. Le génotype des descendants dépend du type d'union mais la fréquence des génotypes AA, Aa ou aa ne change pas d'une génération à l'autre. Si la distribution génotypique respecte statistiquement cette loi alors la population est dite en équilibre d’Hardy-Weinberg pour le SNP considéré.

Pour vérifier cela, la structure des fréquences génotypiques obtenues à partir des données observées est comparée aux fréquences calculées selon la loi de

Hardy-Weinberg, grâce à un test du χ² à un degré de liberté (ddl). Si cette différence

est significative alors le SNP n’est pas en équilibre d’Hardy-Weinberg dans la population.

b. Analyses statistiques utilisées dans les études d’association

Les études d’association permettent, de façon très efficace, de mettre en évidence des effets restreints sur le risque de développer une maladie ou des interactions entre les facteurs étudiés (génétiques ou environnementaux).

Elles consistent à évaluer des associations statistiques entre les génotypes des individus et un phénotype donné en comparant les fréquences des génotypes entre un échantillon de sujets présentant le phénotype étudié (par exemple, une maladie) et un échantillon de sujets ne présentant pas le phénotype. Ces analyses se

formalisent sous la forme d’un tableau de contingence 2x3. Un test du χ² permet de

tester la différence entre les effectifs génotypiques observés entre les deux groupes et ceux attendus sous l’hypothèse d’une indépendance entre la maladie et le polymorphisme étudié. La sur ou sous-représentation statistiquement significative d’un génotype particulier dans l'un des deux groupes comparés suggère l'association de cet allèle avec la maladie. La force de l’association est alors estimée par le calcul de l'odds ratio (OR) défini comme le rapport entre la proportion de sujets porteurs de l’allèle à risque chez les cas et la proportion de sujets porteurs de l’allèle à risque chez les témoins. Les calculs d’OR sont réalisés par des modèles de régression logistique ajustés sur les facteurs de risque conventionnels. Cet OR illustre l’augmentation (OR>1) ou la diminution (OR<1) du risque de survenue de la maladie chez les sujets porteurs de l’allèle à risque par rapport aux sujets non porteurs.

Les études d’association consistent également en la comparaison de la moyenne d’un phénotype (par exemple, le dosage d'une constante biologique telle que la glycémie ou d’un paramètre anthropométrique tel que le poids) entre les individus présentant les différents génotypes. L'approche statistique la plus fréquente est celle d'une analyse de variance (ANOVA (ANalysis Of VAriance)) comparant les moyennes du phénotype étudié entre groupes de génotypes ou d’une analyse de covariance (ANCOVA) si l’analyse est ajustée sur les facteurs de confusion.

En théorie, les tests réalisés sont considérés comme statistiquement significatifs

lorsque la valeur de la probabilité (p) calculée est 1 0,05. Cette valeur correspond à

un risque α, ou risque de première espèce, de 5% qui représente la probabilité de

conclure à tort à une association. Il existe également un risque β, ou risque de

deuxième espèce, qui représente la probabilité d’exclure à tort une association. C’est la gestion de ces deux types de risque qui détermine la puissance statistique d’une étude.

Aujourd’hui, avec la multiplication des études d’association comportant un très grand nombre de SNPs, une correction pour tests multiples est primordiale. En effet, le fait d’augmenter le nombre de SNPs étudiés augmente le nombre de tests effectués et ainsi la probabilité de mettre en évidence un résultat significatif par hasard. Concrètement, si on effectue 100 tests indépendants avec un seuil de significativité à 0,05, statistiquement 5 tests apparaîtront comme significatifs par le seul fait du hasard (faux positifs). Une correction pour tests multiples consiste alors à corriger le seuil de significativité pour considérer l’association comme significative. La correction pour test multiple la plus souvent utilisée est celle de Bonferroni ; elle consiste à diviser le seuil de significativité généralement admis à 0,05 par le nombre de tests effectués [Bland et al. 1995]. Cependant, cette correction est connue pour être trop stricte et souvent inadaptée aux études de polymorphismes génétiques [Rice et al. 2008] (une correction trop stricte peut en effet entraîner le risque de rejeter une association alors qu’elle est réelle).

c. Facteurs de confusion et interactions

Dans une étude d'association, la relation statistique observée entre un polymorphisme et un phénotype peut être, en tout ou partie, expliquée par un facteur de confusion (consommation de tabac, IMC…). Un facteur de confusion est un facteur de risque connu de la maladie et présente une association avec le facteur de risque examiné (le polymorphisme) ou la maladie. Le facteur de confusion peut influencer également le résultat : il peut alors affaiblir ou renforcer une association entre la maladie et les résultats observés. Du fait de cette confusion, un lien inexistant dans la réalité peut être suggéré ou, au contraire, un lien réel peut être méconnu.

Les analyses stratifiées constituent une méthode permettant de contrôler la confusion, en évaluant l’association entre le facteur d'exposition et la maladie dans

les catégories ou classes de la variable potentiellement confondante. Malheureusement, en posant rapidement le problème de la puissance statistique, l’analyse stratifiée n’est pas une méthode pratique pour contrôler simultanément plusieurs facteurs confondants. Une solution alternative consiste à recourir à l’analyse multivariée.

L’interaction, ou modification d’effet, qui se distingue de la confusion, constitue une information très intéressante. Certains facteurs de risque génétiques peuvent n’avoir d’effets que dans des contextes physiologiques (âge, sexe…), environnementaux (consommation de tabac, consommation d'alcool…) ou pathologiques (hypertension artérielle, dyslipidémies…) qu'il est intéressant de caractériser par des recherches d'interactions statistiques. Ces analyses d’interactions permettent, ainsi, d’identifier des sous-groupes à plus haut risque, avec des implications potentielles en terme de santé publique. Le terme d’interaction est souvent source d’ambiguïté, l’interaction statistique se différenciant de l’interaction biologique ou causale [Clayton et al. 2001]. En terme statistique, il existe une interaction gène-environnement (ou gène-gène) lorsque l’effet du polymorphisme sur la maladie dépend de l’exposition à un facteur environnemental (ou de la présence d'un autre polymorphisme génétique). Autrement dit, le taux d’incidence de la pathologie en présence des deux facteurs (gène/environnement ou gène/gène) diffère du taux d’incidence attendu résultant de leur effet individuel. Lorsque l’effet est supérieur à celui attendu, on parle d’interaction positive ou synergique et lorsqu’il plus faible on parle d’interaction négative ou antagoniste. Ce concept statistique de l’interaction a été critiqué parce qu’il est arbitraire, modèle-dépendant, et ne tient pas compte de la notion d’interaction biologique [Greenland 1993]. L’interaction au sens biologique suppose la participation coordonnée de deux facteurs de risque dans un mécanisme étiologique commun, responsable du développement de la maladie [Rothman et al. 1980]. En épidémiologie génétique, l’interprétation de l’existence d’une interaction s'appuie, le plus souvent, sur des considérations statistiques mais la validité du modèle doit idéalement reposer sur des connaissances biologiques [Clayton et al. 2001]. Ceci est d’autant plus complexe que le même modèle statistique traduisant un risque de maladie peut refléter simultanément plusieurs mécanismes biologiques plus ou moins distincts. Enfin, l’une des limites à la recherche d’interaction réside à nouveau dans la puissance statistique nécessaire pour les détecter.