G ´en ´etique d’association

(1)

G ´en ´etique d’association

INRA, Brigitte Mangin

Septembre 2016

(2)

Plan

1 Introduction

2 Estimer le DL

Les mesures usuelles Les nouvelles mesures

3 Tester l’association

Les ph ´enotypes “maladies”

Les ph énotypes continus : le mod èle le plus simple Les ph énotypes continus : corriger de la structure Les ph énotypes continus : corriger de la structure et de l’apparentement

Estimations et tests dans le mod `ele lin ´eaire mixte Seuil

4 La covariance g ´en ´etique

CalculerΣ_G, souvent appel ´ee kinship Caract ´eristique d’une ”bonne” kinship

5 Pour finir Illustration

(3)

(4)

Objectif

(5)

Tester une diff érence d’effet de l’all èle mut é par rapport à l’all èle sauvage

en tout locus polymorphe

(6)

Les tests aux loci3et4 sont identiques.

C’est le fait du d ´es ´equilibre de liaison (DL), que l’on exploite pour

r ´eduire le g ´enotypage (TAG SNP)

en conservant la “couverture” du g énome (ou de la r égion g énomique)

(7)

D éfinition du d és équilibre de liaison

Wikipedia

On dit qu’il y a d és équilibre de liaison si la fr équence des gam ètes porteurs des all èles de deux locus diff érents est diff érente du produit des fr équences des all èles.

C’est- à-dire s’il y a une association pr éf érentielle entre deux all èles de deux locus.

(8)

Math ´ematiquement parlant

(9)

Les mesures usuelles : cas biall ´elique

(10)

Les mesures usuelles

Un regard plus statistique

-∆M₁,ila dose d’all `eleiau locusM₁ -∆M₂,jla dose d’all `elejau locusM₂

Dij=Cov(∆M₁,i,∆M₂,j) r²_ij=Cor²(∆M₁,i,∆M₂,j)

Pour des haplotypes (phase connue)

∆M₁,i= 0 ou 1 (idem∆M₂,j)

Pour des g ´enotypes (phase inconnue)

∆M₁,i= 0 , 1, 2 (idem∆M₂,j)

Rogers & Huff, Genetics, 2009

(11)

Estimation de la mesure r

²

Soit l’observation des doses all ´eliques pour un ´echantillon de tailleN

∆M₁,i =





 δM₁,i,1

... δM₁,i,n

... δM₁,i,N







∆M₂,j=





 δM₂,j,1

... δM₂,j,n

... δM₂,j,N







ˆ

r²_ij=dCor²(∆M₁,i,∆M₂,j) o `uCordest la corr ´elation empirique

(12)

Les mesures usuelles

Exemple

Soit l’observation des doses all éliques pour un échantillon de tailleN=10. Le premier SNP a pour all èles A/T et le second T/A.

∆M1,A=





 1 0 1 1 0 2 2 1 2 0







∆M2,T=





 2 0 1 1 0 1 2 1 2 1







ˆr²_ij=0.54 dans R cor(,)ˆ2

(13)

Biais et solution

ˆr² est biais ´e,Esp(ˆr²)6=r²

lorsque l’ ´echantillon a une structure

lorsque les individus sont fortement apparent ´es et d’apparentements contrast ´es

Des mesures qui corrigent ces biaisr²_S,r_V²,r²_VS

Mangin et al., Heredity, 2011 lorsque la structure est connue (ou estim ´ee)S

lorsque l’apparentement est connu (ou estim ´e)V

(14)

Les nouvelles mesures

D ´efinition

corrig ´ee de la structureS

r_S,ij² =Corr²(∆M₁,i,∆M₂,j;S)

corrig ´ee de l’apparentementV

r²_V,ij=Cor²(V^−1/2∆M₁,i,V^−1/2∆M₂,j)

corrig ´ee de la structure et de l’apparentementS,V r_VS,ij² =Corr²(V^−1/2∆M₁,i,V^−1/2∆M₂,j;S)

o ùCorr(X,Y;Z)d énote la corr élation partielle deXetYlorsqueZest constant,

ou encore la corr élation des r ésidusXetYdes r égressions lin éairesX=Sβ+XetY=Sβ⁰+Y

Package R : LDcorSV

(15)

Estimation des nouvelles mesures

Comme pourr², la corr élation est estim ée par la corr élation empirique.

On utilise la matrice S de structure en K groupes de l’ ´echantillon

S=







S1,1 . . . S1,K

... ... ... Sn,1 . . . Sn,K

... ... ... SN,1 . . . SN,K







Exemple

3 plants de ma¨ıs d’Europe et 2 plants de ma¨ıs des Etats Unis

⇒2 groupes

S=





 1 0 1 0 1 0 0 1 0 1







(16)

On utilise la ma- triceVde variance- covariance de l’ ´echantillon

V=







V1,1 . . . V1,n . . . V1,N

... ... ... ... ... Vn,1 . . . Vn,n . . . Vn,N

... ... ... ... ...

VN,1 . . . VN,n . . . VN,N







Exemple

2 plants de ma¨ıs plein-fr ères non-apparent és à 3 plants de ma¨ıs non-apparent és.

V=







1 0.25 0 0 0 0.25 1 0 0 0

0 0 1 0 0

0 0 0 1 0

0 0 0 0 1







(17)

Exemple pour la correction de la structure

On observe 100 plants de tournesol cultiv és en Europe et 100 plants cultiv és en Argentine, pour 2 marqueurs. Le premier SNP a pour all èles A/T, le second G/C.

Pour une question de place, le vecteur des doses all éliques est repr ésent é en ligne plut ôt qu’en colonne.

∆^t_M

1,A={ 1, . . . ,1,

| {z }

1, . . . ,1,

| {z }

0, . . . ,0,

| {z }

0, . . . ,0,

| {z }

0, . . . ,0,

| {z }

1, . . . ,1

| {z } }

80 10 10 80 10 10

groupe Europ´een groupe Argentain

∆^t_M

2,G={ 1, . . . ,1,

| {z }

0, . . . ,0,

| {z }

1, . . . ,1,

| {z }

0, . . . ,0,

| {z }

1, . . . ,1,

| {z } 0, . . . ,0

| {z } }

80 10 10 80 10 10

groupe Europ´een groupe Argentain

ˆ

r²=0.36 ˆrS=0.012

Dans le groupe Europ ´een :ˆr² =0.012 dans le groupe Argentain :ˆr²=0.012

(18)

Exemple pour la correction de l’apparentement

On observe 110 abricotiers, dont les 50 premiers ont tous ét é clon és à partir d’un seul individu. Les autres sont tous non apparent és. Les deux marqueurs sont pour le premier C/T et le second G/A.

∆^t_M

1,C={ 1, . . . ,1,

| {z }

1, . . . ,1,

| {z } 0, . . . ,0

| {z } }

50 10 50

clˆones

∆^t_M

2,G={ 1, . . . ,1,

| {z }

1,0, . . . ,1,0,

| {z } }

50 30

clˆones

ˆ

r²=0.217 ˆr_V =0.001 En ne gardant qu’un seul des cl ˆones :ˆr²=0.001

(19)

Bien estimer le DL, pourquoi ?

Pour limiter le g ´enotypage

Deux SNP en fort DL apportent une information redondante, il n’est donc pas d’un grand int ér êt de les g énotyper tous les deux.

Pour “couvrir” toute la r égion g énomique d’int ér êt

L’objectif est que tous les SNP non g ´enotyp ´es soient “couverts”

par au moins un SNP g ´enotyp ´e en fort DL.

(20)

Illustration

(21)

Tester l’association

les ph énotypes de maladie le dispositif cas-contr ôle les ph énotypes continus

mod `ele simple

mod èle corrig é des effets de la structure mod èle corrig é des effets de la structure et de l’apparentement

(22)

Les ph ´enotypes “maladies”

Le dispositif cas-contr ˆ ole

Le test se calcule `a partir de la table de comptage, aussi appel ´ee table de contingence suivante :

(23)

Utilisation der²

Le ph énotype “maladie“ peut être vu comme un marqueur un peu particulier. Au locuslde la maladie, au lieu de la dose all élique d’un marqueur, on a

∆l =

(1 si malade 0 si sain On estimera alorsr_i²=Cor²(∆l,∆M₁,i)par

ˆr_i²=Cord²(∆l,∆M₁,i)

Sous l’hypoth `eseH₀: {pas d’association all `eleiavec la maladie}

ˆr²_i ∼χ²(1)

(24)

Les ph ´enotypes “maladies”

Puissance et mesure r

²

Pritchard & Przeworski, Am. J. Hum.Genet., 2001 Pour des marqueurs biall ´eliques

Pour avoir la m ˆeme puissance, qu’au locus causal

N_i=N₄/r²_i4

Plus on s’ ´eloigne du locus causal, plus il faut d’observations, pour garder de la puissance de d ´etection.

(25)

Mod èle lin éaire à 1 facteur ⇒ table ANOVA

Effet du SNP fixe

Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :

% SNP^l_n=1Y_1k=µ+θ^l+1k

Y_n

& SNP^l_n=0Y_0k=µ+_0k

θ^lmod élise la diff érence d’influence des deux all èles du SNP sur le ph énotypeY

SNP^l_nest la dose d’all `ele A pour un SNP enlqui est A/T, par exemple

G ´en ´eralisation

Ce mod èle se g én éralise aux cas de g énotypes manquants inf ér és ou imput és, ainsi qu’aux individus h ét érozygotes en choisissant un mod éle additif et/ou dominant pour l’effet du SNP

(26)

Les ph ´enotypes continus : le mod `ele le plus simple

Les limites du mod `ele

objectif de l’analyse : rechercher les SNPs qui sont causaux. Lorsqu’un SNP est fortement diff érenci é entre deux groupes, il pourra être trouv é associ é au ph énotype sans être causal.

postulat du mod `ele : les observations sontind ´ependantes.

Ce n’est pas le cas lorsque les individus observ ´es sont apparent ´es

Solution

Pour r épondre aux limites du mod èle simple, le mod èle se complexifie

pour corriger de la structure pour corriger de l’apparentement

(27)

Mod èle lin éaire à deux facteurs

Effet du SNP fixe + stucture fixe

Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :

% SNP^l_n=1Yn=µ+Snβ+θ^l+n

Y_n

& SNP^l_n=0Yn=µ+Snβ+n

S_n est la ligne correspondant `a l’individundans la matrice de structureS

M êmes remarques pour la g én éralisation du mod èle que pour le mod èle simple

(28)

Les ph ´enotypes continus : corriger de la structure

Illustration

Exemple

3 plants de ma¨ıs d’Europe et 2 plants de ma¨ıs des Etats Unis⇒2 groupes

S=







1 0

0 1







Exemple pourSnβ

2 groupes : sinappartient au groupe 1,Snβ =β1

sinappartient au groupe 2,S_nβ =β₂ Ce mod èle consiste à ne pas mod éliser la moyenne du ph énotype observ é dans chacun des groupes de la m ême façon.

(29)

Illustration

La valeur des tests sur les marqueurs corr él és à la structure (ceux qui sont diff érenci és) diminue. Ils ne peuvent plus être trouv és comme associ és.

(30)

Les ph ´enotypes continus : corriger de la structure et de l’apparentement

Mod `ele lin ´eaire mixte

Yu et al., Nature Genetics, 2006

Effet du SNP fixe + stucture fixe + covariance g én étique Cas d’individus homozygotes, sans donn ée manquante pour le g énotype :

% SNP^l_n=1Y_n=µ+S_nβ+θ^l+G_n+n

Yn

& SNP^l_n=0Yn=µ+Snβ+Gn+n

Sn est la ligne correspondant `a l’individundans la matrice de structureS

Gnest un valeur g ´en ´etique den. Soit G^t = (G₁, . . . ,G_n, . . . ,G_N),Var(G) =σ_G²ΣG

Var(Y) =σ_G²ΣG+σ²Id

m êmes remarques pour la g én éralisation du mod èle que pour le mod èle simple

(31)

Puissance et mesure r

_VS²

Mangin et al., Heredity, 2011 Pour des marqueurs biall ´eliques

Pour avoir la m ˆeme puissance, qu’au locus causal

Ni =N₄/r_VS² _i4

avec

V =σ²_GΣG+σ²Id

(32)

Estimations et tests dans le mod `ele lin ´eaire mixte

Estimation dans le mod `ele lin ´eaire mixte

Y_n=µ+S_nβ+SNP^l_nθ^l+G_n+n

Deux types de param `etres `a estimer

les param `etres entrant dans la variance deY (composantes de la variance)

les param `etres des effets fixes

Les composantes de la varianceσ_G² etσ²

Elles sont estim ´ees par ML (Maximum Likelihood) ou REML (Restricted ML)

Si on parle de vraisemblance, c’est queY_n a une loi connue.

Cette loi est une Gaussienne⇒Gnetnsont aussi Gaussiens.

C’est un postulat n ´ecessaire pour le mod `ele mixte.

(33)

Les composantes de la varianceσ_G² etσ²

Les estimateurs du maximum de vraisemblance sont des estimateurs biais és (leur esp érance n’est pas égale aux param ètres qu’il estiment).

Le REML

M éthode qui consiste à estimer par maximum de vraisemblance mais apr ès avoir projet éY sur l’espace orthogonal pourV aux effets fixes

La diff ´erence entre ML et REML

dans un cas simple, juste une question de d ´enominateur Exemple :Yn=µ+_npourn=1, . . . ,N

ˆ σ²^ML =

P(Yn−µ)ˆ²

N σˆ²^REML =

P(Yn−ˆµ)² N−1

(34)

Algorithme de ML et/ou REML

Il n’existe pas de formule analytique pour calculer les estimateurs du ML ou du REML.

Les algorithmes qui r ésolvent cette question de maximisation, atteignent le maximum par it érations successives. Ils prennent beaucoup de temps CPU, en particulier car la matrice de covariance g én étiqueΣGdoit être invers ée. Et ils sont longs à converger.

Une autre approche consiste `a ne pas maximiser la vraisemblance mais seulement une approximation de la

vraisemblance, plus simple à maximiser. Cette approximation a cependant la propri ét é d’ être équivalente asymptotiquement à la vraisemblance. Elle permet le “passage à l’ échelle”

c’est- `a-dire tester des millions de SNP.

(35)

Tester l’effet d’un SNP dans le mod `ele lin ´eaire mixte

test de Wald au marqueurl

Le principe est de faire comme si la variance des observations

était connue et d’utiliser l’estimateur deθ^l ainsi que sa variance, classiquement obtenus par les moindres carr és g én éralis és Pour estimer les composantes de la variance on utilise le REML.

La variance “suppos ´ee connue” estVb = ˆσ²_G^REMLΣG+ ˆσ²^REMLId Le test de Wald au locusl: ^(ˆ^θ^l^−θ^l⁾²

Var(ˆθ^l)

suit asymptotiquement une loi deχ²(1)sous l’hypoth `ese H₀ :{pas d’association}

(36)

Tester l’effet d’un SNP dans le mod `ele lin ´eaire mixte

test du rapport de vraisemblance (ML) au marqueurl Pour faire ce test on utilise le ML jamais le REML

RV(l) = maximum de la vraisemblance siθ^l =0 maximum de la vraisemblance si un QTL est enl

−2 ln(RV)suit asymptotiquement une loi deχ²(1)sous l’hypoth `eseH₀: {pas d’association}

(37)

Mais on fait des millions de tests ....

Tests multiples non ind ´ependants

Que ce soit pour les ph énotypes binaires ou continus, un test d’association est affectu é par SNP. Chacun de ces tests sous l’hypoth èseH₀: {pas d’association}est compar é unχ² à 1 degr é de libert é. Mais d’un SNP à un autre, les tests ne sont pas ind épendants.

Bonferroni trop conservateur

=⇒ On ne peux pas utiliser la correction de Bonferroni car elle conduit à un seuil de rejet tr ès petit, donc à un test

beaucoup trop conservateur, donc tr ès tr ès peu de puissance, donc pas de SNP trouv és associ és.

(38)

Seuil

En pratique

Bonferroni moins conservateur

=⇒ Au lieu d’utiliser le nombre de SNP pour corriger la p-value du test, on calcule un ´equivalent du nombre de SNP ind ´ependants.

Li & Ji, Heredity, 2005

FDR

=⇒ On peut aussi utiliser le FDR pour contr ˆoler le taux de faux positifs.

Permutation

=⇒ On peut aussi faire des permutations, mais cela demande beaucoup de CPU. Avec de la parall ´elisation cela reste possible.

(39)

Estimer la structure d’un ´echantillon

Voir la partie du cours de “g ´en ´etique des populations”

(40)

La matrice Σ

_G

Deux grandes m ´ethodes

Lorsque le pedigree est connu A l’aide des marqueurs

Lorsque l’on dispose de nombreux marqueurs, la deuxi ème m éthode donne des r ésultats plus pr écis, en effet elle est capable de voir des diff érences entre deux plein-fr ères. On dit qu’elle ”suit les al éas de la m éiose”.

(41)

Lorsque le pedigree est connu

Le coefficient d’apparentement (coancestry)

Weir et al., Nature Rev Genet, 2006

(42)

CalculerΣG, souvent appel ´ee kinship

Lorsque la covariance g én étique est estim ée avec les marqueurs

AIS

La premi ère proposition consiste à compter le nombre esp ér é d’all èles identiques entre deux individus, c’est le coefficient AIS (alike in state) aussi appel ée IBS (identity by state).

C’est quoi le nombre esp ´er ´e ?

Soit un SNP A/T

AA AT TT

AA 2 1 0

AT 1 1/2(0+2)=1 1

TT 0 1 2

(43)

Exemple

Deux individus,ind₁etind₂, g ´enotyp ´es pour 10 marqueursl.

Codage du g énotype : 0 = homozygote pour l’all èle mutante, 2 = homozygote pour l’all èle du r éf érent, 1 = h ét érozygote

somme Mind1= ( 0, 0, 1, 1, 2, 1, 0, 0, 1, 2 ) Mind2= ( 0, 2, 1, 0, 2, 0, 0, 0, 1, 2 )

AIS^l= ( 2, 0, 1, 1, 2, 1, 2, 2, 1, 2 ) 14

AIS_(ind₁_,ind₂₎= 14 / ( 2×10) = 0.7 Prori ´et ´e de l’AIS

AIS_(ind₁_,ind₂₎= PL

l=1

M^l_ind

1M^l_ind

2+ (2−M_ind^l

1)(2−M^l_ind

2)

4L

AIS_(ind₁_,ind₁₎=1, 0≤AIS_(ind₁_,ind₂₎ ≤1

(44)

CalculerΣG, souvent appel ´ee kinship

Avec les marqueurs, de nombreuses autres propositions

Kinship de type ”VanRanden”

K_(ind₁_,ind₂₎ = PL

l=1M_ind^l

1M_ind^l

2

C = M_ind^t

1Mind₂

C

o ùMind₁ peut avoir ét é au pr éalable centr é et/ou r éduit par SNP pour l’ échantillon d’ étude.

La constanteCn’a aucune influence sur les r ésultats, elle peut être fix ée à une valeur arbitraire.

(45)

... ou encore

Software:CoCoa, Maenhout et al., Bioinformatics, 2009

(46)

Caract ´eristique d’une ”bonne” kinship

Une matricesemi-d éfinie positive (sdp)dont les él éments sont compris entre 0 et 1

(47)

Les logiciels

ASREML, g én érique pour les mod èles mixtes, dans R, maximise la vraisemblance, test du rapport de

vraisemblance

EMMA et suivants, sp ´ecifique de “association mapping”, dans R, maximise une approximation de la vraisemblance, test de Wald

Tassel, sp ´ecifique de “association mapping”, java, propose la maximisation de la vraissemblance et de son

approximation ainsi que le test du rapport de vraisemblance et celui de Wald

Plink, sp écifique de “association mapping”, pas de mod èle mixte, plut ôt sp écifique des applications en g én étique humaine

(48)

Illustration

R ´esultats du test d’association pour un mod `ele

Manhattan plot

(49)

R ´esultats du test pour plusieurs mod `eles

Diff érentes matrices de structure, diff érentes matrices de covariance g én étique