G ´en ´etique d’association
INRA, Brigitte Mangin
Septembre 2016
Plan
1 Introduction
2 Estimer le DL
Les mesures usuelles Les nouvelles mesures
3 Tester l’association
Les ph ´enotypes “maladies”
Les ph ´enotypes continus : le mod `ele le plus simple Les ph ´enotypes continus : corriger de la structure Les ph ´enotypes continus : corriger de la structure et de l’apparentement
Estimations et tests dans le mod `ele lin ´eaire mixte Seuil
4 La covariance g ´en ´etique
CalculerΣG, souvent appel ´ee kinship Caract ´eristique d’une ”bonne” kinship
5 Pour finir Illustration
Objectif
Tester une diff ´erence d’effet de l’all `ele mut ´e par rapport `a l’all `ele sauvage
en tout locus polymorphe
Les tests aux loci3et4 sont identiques.
C’est le fait du d ´es ´equilibre de liaison (DL), que l’on exploite pour
r ´eduire le g ´enotypage (TAG SNP)
en conservant la “couverture” du g ´enome (ou de la r ´egion g ´enomique)
D ´efinition du d ´es ´equilibre de liaison
Wikipedia
On dit qu’il y a d ´es ´equilibre de liaison si la fr ´equence des gam `etes porteurs des all `eles de deux locus diff ´erents est diff ´erente du produit des fr ´equences des all `eles.
C’est- `a-dire s’il y a une association pr ´ef ´erentielle entre deux all `eles de deux locus.
Math ´ematiquement parlant
Les mesures usuelles : cas biall ´elique
Les mesures usuelles
Un regard plus statistique
-∆M1,ila dose d’all `eleiau locusM1 -∆M2,jla dose d’all `elejau locusM2
Dij=Cov(∆M1,i,∆M2,j) r2ij=Cor2(∆M1,i,∆M2,j)
Pour des haplotypes (phase connue)
∆M1,i= 0 ou 1 (idem∆M2,j)
Pour des g ´enotypes (phase inconnue)
∆M1,i= 0 , 1, 2 (idem∆M2,j)
Rogers & Huff, Genetics, 2009
Estimation de la mesure r
2Soit l’observation des doses all ´eliques pour un ´echantillon de tailleN
∆M1,i =
δM1,i,1
... δM1,i,n
... δM1,i,N
∆M2,j=
δM2,j,1
... δM2,j,n
... δM2,j,N
ˆ
r2ij=dCor2(∆M1,i,∆M2,j) o `uCordest la corr ´elation empirique
Les mesures usuelles
Exemple
Soit l’observation des doses all ´eliques pour un ´echantillon de tailleN=10. Le premier SNP a pour all `eles A/T et le second T/A.
∆M1,A=
1 0 1 1 0 2 2 1 2 0
∆M2,T=
2 0 1 1 0 1 2 1 2 1
ˆr2ij=0.54 dans R cor(,)ˆ2
Biais et solution
ˆr2 est biais ´e,Esp(ˆr2)6=r2
lorsque l’ ´echantillon a une structure
lorsque les individus sont fortement apparent ´es et d’apparentements contrast ´es
Des mesures qui corrigent ces biaisr2S,rV2,r2VS
Mangin et al., Heredity, 2011 lorsque la structure est connue (ou estim ´ee)S
lorsque l’apparentement est connu (ou estim ´e)V
Les nouvelles mesures
D ´efinition
corrig ´ee de la structureS
rS,ij2 =Corr2(∆M1,i,∆M2,j;S)
corrig ´ee de l’apparentementV
r2V,ij=Cor2(V−1/2∆M1,i,V−1/2∆M2,j)
corrig ´ee de la structure et de l’apparentementS,V rVS,ij2 =Corr2(V−1/2∆M1,i,V−1/2∆M2,j;S)
o `uCorr(X,Y;Z)d ´enote la corr ´elation partielle deXetYlorsqueZest constant,
ou encore la corr ´elation des r ´esidusXetYdes r ´egressions lin ´eairesX=Sβ+XetY=Sβ0+Y
Package R : LDcorSV
Estimation des nouvelles mesures
Comme pourr2, la corr ´elation est estim ´ee par la corr ´elation empirique.
On utilise la matrice S de structure en K groupes de l’ ´echantillon
S=
S1,1 . . . S1,K
... ... ... Sn,1 . . . Sn,K
... ... ... SN,1 . . . SN,K
Exemple
3 plants de ma¨ıs d’Europe et 2 plants de ma¨ıs des Etats Unis
⇒2 groupes
S=
1 0 1 0 1 0 0 1 0 1
Les nouvelles mesures
On utilise la ma- triceVde variance- covariance de l’ ´echantillon
V=
V1,1 . . . V1,n . . . V1,N
... ... ... ... ... Vn,1 . . . Vn,n . . . Vn,N
... ... ... ... ...
VN,1 . . . VN,n . . . VN,N
Exemple
2 plants de ma¨ıs plein-fr `eres non-apparent ´es `a 3 plants de ma¨ıs non-apparent ´es.
V=
1 0.25 0 0 0 0.25 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1
Exemple pour la correction de la structure
On observe 100 plants de tournesol cultiv ´es en Europe et 100 plants cultiv ´es en Argentine, pour 2 marqueurs. Le premier SNP a pour all `eles A/T, le second G/C.
Pour une question de place, le vecteur des doses all ´eliques est repr ´esent ´e en ligne plut ˆot qu’en colonne.
∆tM
1,A={ 1, . . . ,1,
| {z }
1, . . . ,1,
| {z }
0, . . . ,0,
| {z }
0, . . . ,0,
| {z }
0, . . . ,0,
| {z }
1, . . . ,1
| {z } }
80 10 10 80 10 10
groupe Europ´een groupe Argentain
∆tM
2,G={ 1, . . . ,1,
| {z }
0, . . . ,0,
| {z }
1, . . . ,1,
| {z }
0, . . . ,0,
| {z }
1, . . . ,1,
| {z } 0, . . . ,0
| {z } }
80 10 10 80 10 10
groupe Europ´een groupe Argentain
ˆ
r2=0.36 ˆrS=0.012
Dans le groupe Europ ´een :ˆr2 =0.012 dans le groupe Argentain :ˆr2=0.012
Les nouvelles mesures
Exemple pour la correction de l’apparentement
On observe 110 abricotiers, dont les 50 premiers ont tous ´et ´e clon ´es `a partir d’un seul individu. Les autres sont tous non apparent ´es. Les deux marqueurs sont pour le premier C/T et le second G/A.
∆tM
1,C={ 1, . . . ,1,
| {z }
1, . . . ,1,
| {z } 0, . . . ,0
| {z } }
50 10 50
clˆones
∆tM
2,G={ 1, . . . ,1,
| {z }
1,0, . . . ,1,0,
| {z } }
50 30
clˆones
ˆ
r2=0.217 ˆrV =0.001 En ne gardant qu’un seul des cl ˆones :ˆr2=0.001
Bien estimer le DL, pourquoi ?
Pour limiter le g ´enotypage
Deux SNP en fort DL apportent une information redondante, il n’est donc pas d’un grand int ´er ˆet de les g ´enotyper tous les deux.
Pour “couvrir” toute la r ´egion g ´enomique d’int ´er ˆet
L’objectif est que tous les SNP non g ´enotyp ´es soient “couverts”
par au moins un SNP g ´enotyp ´e en fort DL.
Les nouvelles mesures
Illustration
Tester l’association
les ph ´enotypes de maladie le dispositif cas-contr ˆole les ph ´enotypes continus
mod `ele simple
mod `ele corrig ´e des effets de la structure mod `ele corrig ´e des effets de la structure et de l’apparentement
Les ph ´enotypes “maladies”
Le dispositif cas-contr ˆ ole
Le test se calcule `a partir de la table de comptage, aussi appel ´ee table de contingence suivante :
Utilisation der2
Le ph ´enotype “maladie“ peut ˆetre vu comme un marqueur un peu particulier. Au locuslde la maladie, au lieu de la dose all ´elique d’un marqueur, on a
∆l =
(1 si malade 0 si sain On estimera alorsri2=Cor2(∆l,∆M1,i)par
ˆri2=Cord2(∆l,∆M1,i)
Sous l’hypoth `eseH0: {pas d’association all `eleiavec la maladie}
ˆr2i ∼χ2(1)
Les ph ´enotypes “maladies”
Puissance et mesure r
2Pritchard & Przeworski, Am. J. Hum.Genet., 2001 Pour des marqueurs biall ´eliques
Pour avoir la m ˆeme puis- sance, qu’au locus causal
Ni=N4/r2i4
Plus on s’ ´eloigne du locus causal, plus il faut d’observations, pour garder de la puissance de d ´etection.
Mod `ele lin ´eaire `a 1 facteur ⇒ table ANOVA
Effet du SNP fixe
Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :
% SNPln=1Y1k=µ+θl+1k
Yn
& SNPln=0Y0k=µ+0k
θlmod ´elise la diff ´erence d’influence des deux all `eles du SNP sur le ph ´enotypeY
SNPlnest la dose d’all `ele A pour un SNP enlqui est A/T, par exemple
G ´en ´eralisation
Ce mod `ele se g ´en ´eralise aux cas de g ´enotypes manquants inf ´er ´es ou imput ´es, ainsi qu’aux individus h ´et ´erozygotes en choisissant un mod ´ele additif et/ou dominant pour l’effet du SNP
Les ph ´enotypes continus : le mod `ele le plus simple
Les limites du mod `ele
objectif de l’analyse : rechercher les SNPs qui sont causaux. Lorsqu’un SNP est fortement diff ´erenci ´e entre deux groupes, il pourra ˆetre trouv ´e associ ´e au ph ´enotype sans ˆetre causal.
postulat du mod `ele : les observations sontind ´ependantes.
Ce n’est pas le cas lorsque les individus observ ´es sont apparent ´es
Solution
Pour r ´epondre aux limites du mod `ele simple, le mod `ele se complexifie
pour corriger de la structure pour corriger de l’apparentement
Mod `ele lin ´eaire `a deux facteurs
Effet du SNP fixe + stucture fixe
Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :
% SNPln=1Yn=µ+Snβ+θl+n
Yn
& SNPln=0Yn=µ+Snβ+n
Sn est la ligne correspondant `a l’individundans la matrice de structureS
M ˆemes remarques pour la g ´en ´eralisation du mod `ele que pour le mod `ele simple
Les ph ´enotypes continus : corriger de la structure
Illustration
Exemple
3 plants de ma¨ıs d’Europe et 2 plants de ma¨ıs des Etats Unis⇒2 groupes
S=
1 0
1 0
1 0
0 1
0 1
Exemple pourSnβ
2 groupes : sinappartient au groupe 1,Snβ =β1
sinappartient au groupe 2,Snβ =β2 Ce mod `ele consiste `a ne pas mod ´eliser la moyenne du ph ´enotype observ ´e dans chacun des groupes de la m ˆeme fac¸on.
Illustration
La valeur des tests sur les marqueurs corr ´el ´es `a la structure (ceux qui sont diff ´erenci ´es) diminue. Ils ne peuvent plus ˆetre trouv ´es comme associ ´es.
Les ph ´enotypes continus : corriger de la structure et de l’apparentement
Mod `ele lin ´eaire mixte
Yu et al., Nature Genetics, 2006
Effet du SNP fixe + stucture fixe + covariance g ´en ´etique Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :
% SNPln=1Yn=µ+Snβ+θl+Gn+n
Yn
& SNPln=0Yn=µ+Snβ+Gn+n
Sn est la ligne correspondant `a l’individundans la matrice de structureS
Gnest un valeur g ´en ´etique den. Soit Gt = (G1, . . . ,Gn, . . . ,GN),Var(G) =σG2ΣG
Var(Y) =σG2ΣG+σ2Id
m ˆemes remarques pour la g ´en ´eralisation du mod `ele que pour le mod `ele simple
Puissance et mesure r
VS2Mangin et al., Heredity, 2011 Pour des marqueurs biall ´eliques
Pour avoir la m ˆeme puissance, qu’au lo- cus causal
Ni =N4/rVS2 i4
avec
V =σ2GΣG+σ2Id
Estimations et tests dans le mod `ele lin ´eaire mixte
Estimation dans le mod `ele lin ´eaire mixte
Yn=µ+Snβ+SNPlnθl+Gn+n
Deux types de param `etres `a estimer
les param `etres entrant dans la variance deY (composantes de la variance)
les param `etres des effets fixes
Les composantes de la varianceσG2 etσ2
Elles sont estim ´ees par ML (Maximum Likelihood) ou REML (Restricted ML)
Si on parle de vraisemblance, c’est queYn a une loi connue.
Cette loi est une Gaussienne⇒Gnetnsont aussi Gaussiens.
C’est un postulat n ´ecessaire pour le mod `ele mixte.
Les composantes de la varianceσG2 etσ2
Les estimateurs du maximum de vraisemblance sont des estimateurs biais ´es (leur esp ´erance n’est pas ´egale aux param `etres qu’il estiment).
Le REML
M ´ethode qui consiste `a estimer par maximum de vraisemblance mais apr `es avoir projet ´eY sur l’espace orthogonal pourV aux effets fixes
La diff ´erence entre ML et REML
dans un cas simple, juste une question de d ´enominateur Exemple :Yn=µ+npourn=1, . . . ,N
ˆ σ2ML =
P(Yn−µ)ˆ2
N σˆ2REML =
P(Yn−ˆµ)2 N−1
Estimations et tests dans le mod `ele lin ´eaire mixte
Algorithme de ML et/ou REML
Il n’existe pas de formule analytique pour calculer les estimateurs du ML ou du REML.
Les algorithmes qui r ´esolvent cette question de maximisation, atteignent le maximum par it ´erations successives. Ils prennent beaucoup de temps CPU, en particulier car la matrice de covariance g ´en ´etiqueΣGdoit ˆetre invers ´ee. Et ils sont longs `a converger.
Une autre approche consiste `a ne pas maximiser la vraisemblance mais seulement une approximation de la
vraisemblance, plus simple `a maximiser. Cette approximation a cependant la propri ´et ´e d’ ˆetre ´equivalente asymptotiquement `a la vraisemblance. Elle permet le “passage `a l’ ´echelle”
c’est- `a-dire tester des millions de SNP.
Tester l’effet d’un SNP dans le mod `ele lin ´eaire mixte
test de Wald au marqueurl
Le principe est de faire comme si la variance des observations
´etait connue et d’utiliser l’estimateur deθl ainsi que sa variance, classiquement obtenus par les moindres carr ´es g ´en ´eralis ´es Pour estimer les composantes de la variance on utilise le REML.
La variance “suppos ´ee connue” estVb = ˆσ2GREMLΣG+ ˆσ2REMLId Le test de Wald au locusl: (ˆθl−θl)2
Var(ˆθl)
suit asymptotiquement une loi deχ2(1)sous l’hypoth `ese H0 :{pas d’association}
Estimations et tests dans le mod `ele lin ´eaire mixte
Tester l’effet d’un SNP dans le mod `ele lin ´eaire mixte
test du rapport de vraisemblance (ML) au marqueurl Pour faire ce test on utilise le ML jamais le REML
RV(l) = maximum de la vraisemblance siθl =0 maximum de la vraisemblance si un QTL est enl
−2 ln(RV)suit asymptotiquement une loi deχ2(1)sous l’hypoth `eseH0: {pas d’association}
Mais on fait des millions de tests ....
Tests multiples non ind ´ependants
Que ce soit pour les ph ´enotypes binaires ou continus, un test d’association est affectu ´e par SNP. Chacun de ces tests sous l’hypoth `eseH0: {pas d’association}est compar ´e unχ2 `a 1 degr ´e de libert ´e. Mais d’un SNP `a un autre, les tests ne sont pas ind ´ependants.
Bonferroni trop conservateur
=⇒ On ne peux pas utiliser la correction de Bonferroni car elle conduit `a un seuil de rejet tr `es petit, donc `a un test
beaucoup trop conservateur, donc tr `es tr `es peu de puissance, donc pas de SNP trouv ´es associ ´es.
Seuil
En pratique
Bonferroni moins conservateur
=⇒ Au lieu d’utiliser le nombre de SNP pour corriger la p-value du test, on calcule un ´equivalent du nombre de SNP ind ´ependants.
Li & Ji, Heredity, 2005
FDR
=⇒ On peut aussi utiliser le FDR pour contr ˆoler le taux de faux positifs.
Permutation
=⇒ On peut aussi faire des permutations, mais cela demande beaucoup de CPU. Avec de la parall ´elisation cela reste possible.
Estimer la structure d’un ´echantillon
Voir la partie du cours de “g ´en ´etique des populations”
La matrice Σ
GDeux grandes m ´ethodes
Lorsque le pedigree est connu A l’aide des marqueurs
Lorsque l’on dispose de nombreux marqueurs, la deuxi `eme m ´ethode donne des r ´esultats plus pr ´ecis, en effet elle est capable de voir des diff ´erences entre deux plein-fr `eres. On dit qu’elle ”suit les al ´eas de la m ´eiose”.
Lorsque le pedigree est connu
Le coefficient d’apparentement (coancestry)
Weir et al., Nature Rev Genet, 2006
CalculerΣG, souvent appel ´ee kinship
Lorsque la covariance g ´en ´etique est estim ´ee avec les marqueurs
AIS
La premi `ere proposition consiste `a compter le nombre esp ´er ´e d’all `eles identiques entre deux individus, c’est le coefficient AIS (alike in state) aussi appel ´ee IBS (identity by state).
C’est quoi le nombre esp ´er ´e ?
Soit un SNP A/T
AA AT TT
AA 2 1 0
AT 1 1/2(0+2)=1 1
TT 0 1 2
Exemple
Deux individus,ind1etind2, g ´enotyp ´es pour 10 marqueursl.
Codage du g ´enotype : 0 = homozygote pour l’all `ele mutante, 2 = homozygote pour l’all `ele du r ´ef ´erent, 1 = h ´et ´erozygote
somme Mind1= ( 0, 0, 1, 1, 2, 1, 0, 0, 1, 2 ) Mind2= ( 0, 2, 1, 0, 2, 0, 0, 0, 1, 2 )
AISl= ( 2, 0, 1, 1, 2, 1, 2, 2, 1, 2 ) 14
AIS(ind1,ind2)= 14 / ( 2×10) = 0.7 Prori ´et ´e de l’AIS
AIS(ind1,ind2)= PL
l=1
Mlind
1Mlind
2+ (2−Mindl
1)(2−Mlind
2)
4L
AIS(ind1,ind1)=1, 0≤AIS(ind1,ind2) ≤1
CalculerΣG, souvent appel ´ee kinship
Avec les marqueurs, de nombreuses autres propositions
Kinship de type ”VanRanden”
K(ind1,ind2) = PL
l=1Mindl
1Mindl
2
C = Mindt
1Mind2
C
o `uMind1 peut avoir ´et ´e au pr ´ealable centr ´e et/ou r ´eduit par SNP pour l’ ´echantillon d’ ´etude.
La constanteCn’a aucune influence sur les r ´esultats, elle peut ˆetre fix ´ee `a une valeur arbitraire.
... ou encore
Software:CoCoa, Maenhout et al., Bioinformatics, 2009
Caract ´eristique d’une ”bonne” kinship
Une matricesemi-d ´efinie positive (sdp)dont les ´el ´ements sont compris entre 0 et 1
Les logiciels
ASREML, g ´en ´erique pour les mod `eles mixtes, dans R, maximise la vraisemblance, test du rapport de
vraisemblance
EMMA et suivants, sp ´ecifique de “association mapping”, dans R, maximise une approximation de la vraisemblance, test de Wald
Tassel, sp ´ecifique de “association mapping”, java, propose la maximisation de la vraissemblance et de son
approximation ainsi que le test du rapport de vraisemblance et celui de Wald
Plink, sp ´ecifique de “association mapping”, pas de mod `ele mixte, plut ˆot sp ´ecifique des applications en g ´en ´etique humaine
Illustration
R ´esultats du test d’association pour un mod `ele
Manhattan plot
R ´esultats du test pour plusieurs mod `eles
Diff ´erentes matrices de structure, diff ´erentes matrices de covariance g ´en ´etique