• Aucun résultat trouvé

I. 2.2.2 1000 Genome Project

I.4 Des études de liaison aux études d'association

I.4.2 Les études d'association

I.4.2.1 Introduction.

* Les méthodes MCMC sont une classe de méthodes d'échantillonnage à partir de distributions de probabilité. Ces méthodes se basent sur le parcours de chaînes de Markov qui ont pour lois stationnaires les distributions à échantillonner.

Chez l'homme, les généticiens se sont rapidement heurtés aux limites des études de liaison en tentant de les appliquer à des maladies courantes telles que le diabète, les maladies cardio-vasculaires ou le cancer. Ces échecs, expliqués par le mode d'hérité complexe de ces maladies, ont poussé les généticiens vers une autre stratégie: les études d'association. Contrairement aux études de liaison, les études d'association ne s'intéressent pas aux patterns d’hérédité familiale d'un caractère, mais recherchent plutôt si un allèle particulier est plus fréquent (ou moins fréquent) dans un groupe d'individus atteints par rapport un groupe d'individus contrôles.

Les études d'association ont d'abord été employées dans une approche de type gène candidat10,11. Toutefois, il a fallu attendre plusieurs décennies pour voir le développement d'un certain nombre d'outils génétiques (pour rappel, mais déjà évoqués plus haut: développement d'un catalogue exhaustif des variations génétiques courantes et étude des patterns de DL chez l'homme avec le projet HapMap51, développement de plate-forme de génotypage à haut débit et diminution des coûts de génotypage25) permettant de rechercher de manière systématique à travers tout le génome des associations entre des polymorphismes communs et des maladies communes. L'idée de base des GWAS peut paraître simple: rechercher à travers un catalogue de variations génétiques courantes (ayant un contenu en information suffisante pour couvrir l'ensemble du génome), celles pouvant être impliquées dans une maladie en comparant les fréquences alléliques entre un groupe d'individus atteints et un groupe d'individus contrôles. Cependant l'interprétation des résultats d'une GWAS peut

Figure I.8 : Le principe des études d'association est de regarder si un allèle est plus fréquent (ou moins fréquent) parmi les cas que parmi les contrôles. Figure provenant de l'article de Lander et Shork 207

paradoxalement s'avérer être extrêmement complexe. En effet quand on détecte une association entre un SNP et une maladie, il peut y avoir 3 raisons à cela: (i) le SNP est une mutation causale (ii) le SNP est en déséquilibre de liaison avec la mutation causale (iii) une fausse association entre la maladie et un SNP.

Cette dernière résulte le plus souvent de problèmes de stratification dans la population dans laquelle les cas et les contrôles sont échantillonnés: une grande population non isolée est constituée de sous-populations d'origines ethniques différentes, si la maladie étudiée est présente à une fréquence plus élevée dans une de ces sous-populations, on trouvera systématiquement une association avec n'importe quel SNP présentant une distribution allélique différente entre cette sous-population et le reste de la population. Ces problèmes de stratification combinés aux problèmes de la multitude d'hypothèses testées dans les GWAS ont longtemps contribué à décrédibiliser les résultats obtenus avec ce type d'étude et ont été un challenge pour le généticien-statisticien.

Les études d'association ont un autre avantage majeur sur les études de liaison: les régions identifiées dans les études d'association sont beaucoup moins grandes (quelques kb) que dans les études de liaison (quelques Mb).

En fait, les études d'association ont longtemps été considérées en cartographie fine comme une alternative bon marché au séquençage de cas et de contrôles visant à identifier les mutations causales dans les régions préalablement identifiées dans des études de liaison. Les généticiens ont tenté de tirer parti de cet avantage chez les espèces de production en développant des méthodes de cartographie fine de QTL exploitant simultanément la liaison et le déséquilibre de liaison.

I.4.2.2 Design d'une étude d'association génome-entier.

Si l'on veut éviter qu'une GWAS ne soit qu'un gaspillage de temps et d'énergie, il est indispensable de se poser un certain nombre de questions sur le design de l'étude avant d'entreprendre une quelconque action. En effet les choix préalables à une étude GWAS sont déterminants pour la puissance statistique de l'étude.

I.4.2.2.a Choix des cohortes.

Tout d'abord on doit s'intéresser aux critères de sélection des cas et des contrôles. Le choix des cas doit être guidé par cette idée d'enrichir les cas pour des allèles spécifiques prédisposant à la maladie. Pour cela on peut tenter de limiter l’hétérogénéité génétique en sélectionnant des cas extrêmes ou en se focalisant sur des cas familiaux. Pour les contrôles, il arrive très souvent que ces individus soient des donneurs de sang opportunistes n'ayant subi aucun examen médical préalable et servant de cohorte contrôle pour diverses études cas-contrôles pour différentes maladies. Ceci peut poser différents problèmes: Il faudra par exemple se prémunir d'éventuels

faux positifs dus à des problèmes de stratification en prenant garde que la cohorte contrôle ne divergent pas trop génétiquement des cohortes de cas (on testera un éventuel excès d'association positive, et l'on écartera les individus génétiquement trop divergents). Par ailleurs on veillera à ce que des individus n'aient pas été erronément considérés comme des contrôles, ce qui peut conduire à diminuer la puissance de l'étude. Ce problème survient essentiellement pour des désordres ayant une prévalence élevée, p.e. hypertension ou obésité.

On peut remédier à cela en choisissant ses contrôles scrupuleusement, mais en tenant compte aussi du fait que choisir des contrôles extrêmes peut amener à sélectionner des individus atteints d'autres types de désordres (par exemple, choisir des individus maigres qui peuvent être atteints d'une maladie chronique dans une étude sur l'obésité).

I.4.2.2.b Taille des cohortes.

On doit par la suite s'interroger sur le nombre de cas et de contrôles que l'on veut génotyper sur une puce à haute densité en marqueurs. La réponse à cette question dépendra du type d'effet que l'on souhaite mettre en évidence.

Les résultats des premières GWAS ont cependant montré que les variation génétiques détectés étaient la plupart du temps associées à des effets modestes, donc nécessitant des cohortes comprenant plusieurs milliers d'individus. Ainsi si l'on considère le seuil classique d'acceptation d'une association dans une GWAS (puce contenant 500,000 SNPs) c'est-à-dire une valeur p = 5x10-8, (équivalent à une valeur p = 0.05 après une correction de Bonferonni), il faudra génotyper 6000 contrôles et 6000 cas pour détecter dans 80% des cas une association avec un allèle de susceptibilité ayant un MAF = 15% et un odds-ratio 1.25. Pour éviter d'avoir à génotyper autant d'individus, la plupart des GWAS adoptent une stratégie multiétapes: la première étape consiste à tester une association pour un nombre limité de cas et de contrôles (p.e. 1000 cas et 1000 contrôles) et de considérer toutes les associations au-dessus d'un seuil volontairement laxiste qui laissera passer à la fois des vraies associations, mais aussi majoritairement beaucoup de fausses associations (p.e. avec un seuil de 5%, on s'attend à détecter sous l'hypothèse H0 25,0000 associations (sur une puce de 500,000 SNP) dont seulement une faible fraction sont vraies). Dans l'étape suivante on teste des associations en génotypant des nouvelles cohortes ayant une taille égale voir supérieure aux cohortes utilisées dans la première étape, mais seulement pour des SNP ayant passé le filtre de la première étape. On adopte cette fois un seuil plus strict pour garder uniquement les vraies associations. Bien évidemment cette stratégie multiétapes soulève de nouvelles questions comme le choix des individus à génotyper lors de la seconde étape.

I.4.2.2.c Choix relatifs aux techniques de laboratoire.

On peut ensuite se poser des questions sur le choix de la plate-forme de génotypage et donc des SNPs à génotyper. Pour une couverture optimale du génome, les marqueurs génotypés doivent être en DL avec la mutation causale. Le choix des tags SNPs et de leur nombre dépendra de la méthode employée ainsi que de la population d'origine dont sont issues les cohortes. Par exemple du fait que le DL s'étend sur des distances moins longues dans les populations Africaines, on sait qu'il faudra pratiquement le double de SNP pour des cohortes issues de ces populations que pour des cohortes issues de populations européennes. Il faut toutefois souligner que le HapMap II38 a montré que les deux principales plates-formes de génotypage (Illumina, Affymetrix) avaient une couverture génomique suffisante dans les populations caucasiennes. À l'heure actuelle, on voit arriver des plates-formes mixtes permettant de génotyper simultanément des SNPs et CNVs. Cependant, contrairement aux SNP, on ne dispose pas d'une liste exhaustive de CNVs pour le génome humain, il est donc difficile d'évaluer l'apport de ce type de plate-forme.

Autre point à souligner concernant les techniques de laboratoire: le traitement différent (technique d'extraction différente ou plusieurs plates-formes de génotypage) que peuvent subir des échantillons issus de cas et de contrôles pouvant être l'origine d'artefact. Par exemple si la cohorte des cas est génotypée sur une plate-forme où l'attribution des génotypes est biaisée vers le génotype hétérozygote, alors le statisticien peut être amené erronément à conclure à une association.

I.4.2.3 Analyses préliminaires.

I.4.2.3.a Des données brutes aux génotypes et les contrôles de qualité.

Les analyses statistiques dans les GWAS sont systématiquement précédées d'une batterie de tests permettant de passer des données brutes à des données ayant une qualité suffisante permettant ainsi d'éviter des artefacts pouvant conduire à des conclusions erronées.

Ces analyses préliminaires débutent par la transformation des données expérimentales en génotypes (Figure I.9).

Étant donné la quantité monumentale de données à traiter, cette transformation a nécessité le développement de méthodes automatisées. La plupart des logiciels actuels n'attribuent pas directement à une mesure expérimentale un génotype discret, mais fournissent une probabilité pour chaque génotype possible en fonction des observations. Les critères de qualité de ce type de logiciel sont la précision liée à la capacité à bien distinguer les trois groupes de génotype pour un SNP et le call-rate. Ce dernier correspond pour un SNP au % d'individus pour

lesquels on peut attribuer un génotype.

Le call-rate est un point capital comme critère de qualité des génotypes aussi bien des SNPs que des individus.

En effet un call-rate trop faible peut amener de fausses associations du fait qu'un génotype est davantage systématiquement manquant que les deux autres. L'étape suivant l'attribution des génotypes sera de déterminer des seuils de call-rate et d'écarter les individus et les SNPs avec des call-rate trop bas.

Un autre test visant à améliorer la qualité des données est d'identifier et d'enlever des analyses ultérieures les SNPs en déséquilibre d'HW chez les contrôles. On suppose ici que des erreurs de génotypage sont responsables de ces déviations dans l'équilibre HW. Toutefois un déséquilibre d'HW peut se produire dans le cas d'une délétion ou d'une duplication lesquelles ayant peut-être elles-mêmes un rôle essentiel dans étiologie de la maladie. Actuellement on écarte systématiquement un SNP en déséquilibre HW sans se préoccuper de ces dernières considérations.

On teste généralement avec un test de Pearson (test chi²) l'équilibre HW en comparant les fréquences génotypiques observées avec les fréquences attendues en cas d’équilibre HW. Cependant quand les comptes génotypes sont trop faibles, il est recommandé de remplacer ce test par un test exact de Fisher.

Quand on dispose du sexe des individus, on peut confronter ces données aux génotypes sur le chromosome X.

Ceci permettra d'une part de contrôler la qualité des SNPs sur le chromosome X et d'autre part de mettre évidence des erreurs dans la classification du statut d'un individu (malade ou contrôle).

Figure I.9 : Procédure pour attribuer des génotypes pour un SNP donné. Les données brutes de 200 génotypes, niveaux d'intensité lumineuse sont représentées avec un graphe de type plot avec un axe des x pour le premier allèle et un axe des y pour le second allèle. Dans le premier graphique, les trois clusters sont correctement définis. Dans les autres graphiques différents problèmes dans l'attribution des génotypes surviennent. Figure provenant de l'article de McCarthy et al. 205.

Par ailleurs, il faudra systématiquement écarter des analyses statistiques les individus qui divergent trop génétiquement du reste du groupe. On pourra aussi mettre en évidence, en calculant les probabilités IBS, des relations de parenté qui étaient ignorées jusqu'à présent, pouvant également être une source de faux positifs.

I.4.2.3.b Imputation des données manquantes et phasage.

Il existe différentes raisons pour vouloir imputer des données manquantes: (i) nécessité de réaliser ultérieurement des analyses multipoints (ii) analyser des données provenant de plateforme de génotypage différente. Les logiciels d'imputation prédisent un génotype manquant en fonction des génotypes des SNPs voisins. La fiabilité de ce type de logiciel dépendra des niveaux de DL dans la région où se trouve le SNP avec les génotypes manquants. On distingue deux types de logiciels: ceux donnant un résultat unique d'imputation en utilisant par exemple des méthodes du type maximum de vraisemblance, de ceux sélectionnant un génotype sur base des probabilités associées à chacun des trois génotypes possibles. Cette dernière approche permet d'investiguer l'impact des imputations sur les analyses ultérieures. Par ailleurs la plupart des logiciels d'imputation supposent que le fait qu'un soit génotype soit manquant est événement indépendant du vrai génotype ainsi que du phénotype de l'individu. Ceci n'est pas toujours le cas: il arrive très souvent d'avoir davantage de données manquantes pour les hétérozygotes que pour les homozygotes ou encore on peut avoir une distorsion dans les données manquantes entre les cas et les contrôles si ceux-ci n'ont pas été génotypés sur la même plate-forme par exemple.

Quand on regarde les génotypes d'un individu au niveau de plusieurs SNPs dans une région, ils résultent de l'association de deux combinaisons d'allèles l'une et l'autre étant portées respectivement par les chromosomes d'origine maternelle et paternelle. Il est possible de déterminer ces combinaisons d'allèles appelées haplotype sur des individus non apparentés en se basant sur les caractéristiques du DL chez l'homme vu dans le paragraphe du projet HapMap, c'est-à-dire qu'il existe des régions avec des taux de recombinaison bas dans lesquelles il existe peu d'haplotypes dans la population. Les programmes exploitant ce principe fonctionnent bien quand d'une part le pourcentage de données manquantes est faible et quand d'autre part on dispose d'une carte dense en SNP.

L'utilisation de ce type de logiciel est dictée par le besoin de réaliser des études d'association avec des haplotypes plutôt que sur des génotypes. À noter que beaucoup de logiciels d'imputation permettent également de phaser des données (ex.: PHASE53; FASTPHASE54). Le choix de phaser les données des cas et des contrôles ensemble ou séparément reste un sujet controversé. Phaser les données des cas et des contrôles ensemble peut induire un biais vers l'hypothèse de la non-existence d'une association entre les haplotypes et la maladie et donc de diminuer la puissance de l'étude. D'un autre côté, phaser les données des cas et des contrôles séparément peut gonfler le pourcentage d'erreur de type I.

I.4.2.3.c Évaluation des niveaux de déséquilibre de liaison et estimation des taux de recombinaison.

En principe le choix des SNPs génotypés a été préalablement réalisé en fonction des niveaux de DL dans les populations dont sont issues les cohortes, afin de refléter l'information de tous les SNPs courants présents dans le génome. Cependant ce type d'étude se réalise sur des populations proches, mais qui ne sont pas forcément les populations desquelles sont issues nos cohortes de cas et de contrôles. Afin d'estimer la couverture génomique dans le cas spécifique de nos cohortes et donc d'évaluer du même coup la puissance d'une GWAS, il est nécessaire de réaliser une étude de liaison en estimant soit un r² soit un D' entre des paires de marqueurs (voir plus haut pour les définitions et propriétés de ces mesures). On peut représenter les niveaux de DL dans un diagramme en couleurs représentant les variations dans les niveaux de DL entre paires de marqueurs.

I.4.2.4 Analyses statistiques des études d'association génome entier.

I.4.2.4.a Les études simple point.

I.4.2.4.a.1 Phénotype cas-contrôles.

Il existe différents tests pour mettre en évidence une association entre un SNP et la maladie. Les avantages et inconvénients de chacun de ces tests dépendent principalement du type d'effets des allèles d'un SNP sur la maladie: additifs, dominants ou récessifs. Le test le plus simple et le plus intuitif est le test de Pearson à 2df (ou un test exact de Fisher), où l'on compare les fréquences génotypiques observées chez les cas et les contrôles avec celles attendues sous l'hypothèse qu'il n'existe pas de différence entre les cas et les contrôles. Ce test a une puissance raisonnable pour différents types d'effets. Cependant il existe des tests avec une meilleure puissance dans le cas d'effets additifs comme par exemple un test de Pearson basé cette fois sur les fréquences alléliques.

Toutefois ce test présente deux inconvénients majeurs: d'une part il suppose un équilibre HW combiné chez les cas et les contrôles et d'autre part il est difficile à interpréter du point de vue de l'estimation du risque. Une alternative à cette approche est le test de Cochran–Armitage, où on regarde dans une régression la proportion des cas pour chacun des 3 génotypes encodés en 0,1,2 (1 pour le génotype hétérozygote). S'il n'y pas d'association, on s'attend à une pente de régression β=0, tandis que dans le cas d'un SNP ayant des effets purement additifs, on pourra fitter parfaitement l'estimation des risques des 3 génotypes avec une droite de régression. L'avantage de

ce test par rapport au précédent est qu'il n'émet aucune hypothèse sur l'équilibre HW d'un SNP. Cependant il est déficient pour détecter des effets de sur-dominance. Il n'existe pas de test ayant une puissance constante quel que soit le type d'effet. Une approche consiste à tester plusieurs modèles et à pondérer les résultats de ces différents tests selon ce que l'on attend en termes d'effet (par exemple on donnera plus de poids à un test recherchant des effets additifs). Une autre approche est de réaliser un test d'Armitage quand le MAF est bas et un test exact de Fisher quand on a suffisamment d'individus pour chacun des 3 génotypes. Enfin on pourrait imaginer une approche Bayesienne dans laquelle le généticien exprime ses hypothèses sur la nature des risques de la maladie à l'intérieur de distributions prior. Ce type d'approche ne joue pour le moment aucun rôle dans les études d'association.

I.4.2.4.a.2 Phénotype continu.

Pour un phénotype continu (p.e. mesure de la tension artérielle), les outils statistiques les plus répandus pour tester une association avec les génotypes d'un SNP sont l'ANOVA 2 (analogue au test de Pearson avec 2df) et la régression linéaire (1df). Les deux tests supposent que pour chaque génotype le phénotype soit distribué normalement avec une variance similaire. Dans le cas d'un phénotype, où ces hypothèses de normalité et d'homosédasticité ne sont pas respectées, une solution est de réaliser la transformation logarithmique du phénotype. L'approche communément admise est généralement de comparer un modèle ANOVA avec une régression, la régression étant à son tour comparée au modèle nul où l'on n'a pas d'association. On garde le modèle le plus simple qui ne montre pas de différence significative avec un modèle plus général.

I.4.2.4.a.3 La régression logistique.

Il n'est pas possible d'appliquer directement une régression linéaire à un phénotype de cas-contrôles car ce dernier n'est pas distribué normalement et d'autre part les prédictions de probabilité d'être atteint pourraient tomber en dehors du range 0-1. Toutefois il existe une approche plus sophistiquée apparentée à la régression

Il n'est pas possible d'appliquer directement une régression linéaire à un phénotype de cas-contrôles car ce dernier n'est pas distribué normalement et d'autre part les prédictions de probabilité d'être atteint pourraient tomber en dehors du range 0-1. Toutefois il existe une approche plus sophistiquée apparentée à la régression

Documents relatifs