• Aucun résultat trouvé

Une fois les génotypes déterminés, un certain nombre de contrôles qualité sont néces-saires pour prévenir les biais dans les études d'association subséquentes et éliminer les SNP pour lesquels le processus de détermination n'aurait pas bien fonctionné.

Ces contrôles qualité consistent en un contrôle des échantillons et un contrôle des SNP eectués successivement et de manière itérative. La plupart de ces contrôles qualité peuvent être eectués de manière standard par les logiciels PLINK [41] ou GenABEL [42].

2.1 Contrôle des échantillons

Les études d'association en population reposent sur deux hypothèses majeures :  les sujets sont indépendants les uns des autres

 les sujets proviennent d'une même population génétiquement homogène.

Ces deux hypothèses permettent en eet d'assurer le caractère indépendant et identique-ment distribué des variables étudiées, nécessaire à l'application des théorêmes statistiques classiques.

En génétique, ces conditions se traduisent par l'absence de lien de parenté entre les sujets (indépendance) et l'absence de stratication non contrôlée de la population. 2.1.1 Détection de liens de parenté

An de détecter les liens de parenté entre individus, on dénit l'identité par état (Identity By State ou IBS en anglais) d'un SNP entre deux individus comme la moitié du nombre d'allèles partagés par ces deux individus pour ce SNP. L'IBS à un locus reète l'information génétique partagée par les deux individus à ce locus. Cet IBS peut valoir 1, 1/2 ou 0 selon que les individus ont 2,1 ou aucun allèle en commun.

On peut ensuite dénir l'IBS moyen entre deux individus comme la moyenne des IBS sur tous les SNP génotypés chez ces deux individus. On obtient ainsi un score global compris entre 0 et 1 reétant l'information génétique partagée par deux individus. On peut montrer que pour deux individus indépendants issus d'une même population à l'équilibre

2. CONTRÔLE QUALITÉ

d'Hardy-Weinberg (voir section 2.2.2 pour une dénition précise), l'IBS d'un SNP entre ces deux individus aura pour espérance 1 − 2f(1 − f) + 2f2(1 − f )2 où f est la fréquence du SNP. Si les fréquences alléliques sont réparties uniformément entre 0 et 1, l'espérance de l'IBS se situera autour de 0.75. On peut également montrer que le niveau attendu de l'IBS est plus faible entre individus issus de populations diérentes (c'est à dire ayant des fréquences alléliques diérentes) et augmente avec le niveau de parenté des individus. Une façon simple de ltrer les individus apparentés est donc de repérer les paires d'individus ayant un IBS trop élevé et de retirer à chaque fois l'individu ayant le plus de génotypes indéterminés. On utilise en général un seuil de 0.95 pour ce ltrage.

2.1.2 Détection de stratications de population

L'IBS peut également être utilisé pour étudier la structure de la population et dé-tecter des stratications sous-jacentes. En eet, les diérences de fréquences alléliques entre populations augmentent les diérences génétiques entre individus issus de popula-tions diérentes. Si on eectue une classication en se servant de l'IBS comme mesure de similarité, il est alors possible de détecter des stratications de population lorsqu'elles existent.

Le plus souvent on préfère cependant recourir à une méthode de projection non linéaire telle que le MultiDimensionnal Scaling (MDS). Cette méthode consiste à chercher la projection des données sur des sous-espaces de dimension xe, de façon à minimiser le stress, déni comme l'écart entre les distances mesurées dans ce sous-espace et les vraies distances entre les points [43]. Ce type de méthode permet une visualisation claire des eets de stratication (cf. gure 5.3a). Il est ensuite possible de contrôler l'eet de la stratication en ajustant sur les premiers axes du MDS.

Dans le cas d'une population homogène a priori, le MultiDimensionnal Scaling (MDS) permet de repérer des individus présentant un prol génétique atypique, généralement issu d'une population diérente3. Dans ce but, on eectue une projection des données sur un plan (2 dimensions). Des simulations montrent qu'en l'absence totale de structure, le MDS distribue les points sur les axes selon deux gaussiennes indépendantes. Pour iden-tier les individus atypiques, on peut modéliser les points par une gaussienne bivariée et construire des ellipsoïdes de conance. En procédant ainsi, on considère comme atypiques les individus situés à plus de 3 écart-types du centre du nuage avec un taux d'erreur de 10/00 environ (gure 5.3a). En itérant ce processus, on arrive à une stabilisation autour de points reétant une population homogène (gure 5.3b et 5.3c).

CHAPITRE 5. ACQUISITION DES GÉNOTYPES

(a) avant ltrage (b) après un premier ltrage (c) après un second ltrage

Figure 5.3  Repérage d'individus atypiques et d'eets de stratication par MDS : Chaque point correspond à un individu. Les distances dans le plan reètent les distances (1-IBS) entre individus. Les points rouges sont les individus susamment éloignés du nuage principal pour être considérés comme atypiques. Source : GHS

2.1.3 Taux d'hétérozygotie

Un troisième critère est le taux d'hétérozygotie. Ce taux est déni comme le pourcen-tage de génotypes hétérozygotes dans un échantillon donné. Les individus présentant un taux d'hétérozygotie trop élevé sont retirés des analyses. En eet, connaissant la réparti-tion des fréquences alléliques, on en déduit la distriburéparti-tion attendue du taux d'hétérozy-gotie des individus (par exemple par des méthodes de ré-échantillonnage) et on exclut les individus diérents signicativement de cette distribution.

Les individus présentant des taux d'hétérozygotie anormalement élevés sont le plus souvent des individus sur lequel le génotypage n'a pas bien fonctionné et pour lesquels le génotype d'une grande majorité de SNP a été attribué par défaut à la classe des hétérozygotes.

2.2 Contrôle des SNP

2.2.1 Taux de détermination

Le premier contrôle eectué sur les SNP est la vérication du taux de détermination, c'est-à-dire du pourcentage d'individus pour lesquels un génotype a pu être attribué. Un taux de détermination trop bas indique le plus souvent une défaillance du modèle utilisé pour déterminer les génotypes. De telles défaillances sont relativement fréquentes et peuvent avoir plusieurs causes :

 Des biais expérimentaux mal contrôlés peuvent gêner la reconnaissance des classes et donc l'inférence des génotypes (ex : problème d'hybridation).

2. CONTRÔLE QUALITÉ

 Le SNP peut se situer dans une région où des variations du nombre de copies existent. Dans ce cas le nombre de génotypes possibles est supérieur à trois, puisqu'on peut avoir des génotypes fonction du nombre de copies (A, B, AA, AB, BB, AAA, AAB, ABB, BBB,. . .)

Un seuil élevé de détermination de l'ordre de 95% est donc généralement requis. 2.2.2 Equilibre d'Hardy-Weinberg

Dans une population, sous certaines conditions (population susamment grande, pan-mixie, pas de mutations, de migrations, ni de pressions de sélection), les fréquences génoty-piques des SNP (pAA, pAB, pBB) sont fonction uniquement des fréquences alléliques. C'est l'équilibre de Hardy-Weinberg. Les proportions des trois génotypes sont alors données par

pAA = p2

pAB = 2pq

pBB = q2

où p et q = 1 − p sont les fréquences des allèles A et B.

Des écarts aux fréquences d'équilibre peuvent donc être le signe :

1. De la présence de sous-populations dont les fréquences alléliques dièrent pour le SNP.

2. De pressions de sélection au locus considéré.

3. D'écart à la panmixie (Consanguinité, choix du conjoint par appariement sur cer-tains critères phénotypiques,. . .).

4. De défaillances du modèle de détermination des génotypes.

Il est donc souvent préférable de retirer lors des analyses d'association les SNP qui échappent à l'équilibre d'Hardy-Weinberg chez des témoins (excès d'homozygotes ou d'hé-térozygotes)4.

2.2.3 Fréquence allélique

Du fait des diérences génétiques entre populations, des allèles détectés dans une population peuvent ne pas exister dans une autre ou y être trop peu fréquents pour avoir un eet détectable sur le risque de développement d'une pathologie. Garder les SNP rares lors des études d'association peut amener à une perte de puissance globale à cause de l'augmentation du nombre d'hypothèses testées (ce point sera évoqué plus en détail dans le chapitre suivant) et entraîner une augmentation du nombre de faux positifs dûs

4. Dans une population de malade, les SNP associé au risque peuvent s'écarter de l'équilibre d'Hardy-Weinberg si le modèle génétique sous-jacent s'écarte du modèle additif (ou modèle de codominance sticte).

CHAPITRE 5. ACQUISITION DES GÉNOTYPES

à l'impact d'un écart à la normalité des résidus. On retire donc généralement les variants rares (MAF5>0.01 ou MAF>0.05) des analyses génome entier.

CHAPITRE 6