• Aucun résultat trouvé

G ´en ´etique d’association

N/A
N/A
Protected

Academic year: 2022

Partager "G ´en ´etique d’association"

Copied!
49
0
0

Texte intégral

(1)

G ´en ´etique d’association

INRA, Brigitte Mangin

Septembre 2016

(2)

Plan

1 Introduction

2 Estimer le DL

Les mesures usuelles Les nouvelles mesures

3 Tester l’association

Les ph ´enotypes “maladies”

Les ph ´enotypes continus : le mod `ele le plus simple Les ph ´enotypes continus : corriger de la structure Les ph ´enotypes continus : corriger de la structure et de l’apparentement

Estimations et tests dans le mod `ele lin ´eaire mixte Seuil

4 La covariance g ´en ´etique

CalculerΣG, souvent appel ´ee kinship Caract ´eristique d’une ”bonne” kinship

5 Pour finir Illustration

(3)
(4)

Objectif

(5)

Tester une diff ´erence d’effet de l’all `ele mut ´e par rapport `a l’all `ele sauvage

en tout locus polymorphe

(6)

Les tests aux loci3et4 sont identiques.

C’est le fait du d ´es ´equilibre de liaison (DL), que l’on exploite pour

r ´eduire le g ´enotypage (TAG SNP)

en conservant la “couverture” du g ´enome (ou de la r ´egion g ´enomique)

(7)

D ´efinition du d ´es ´equilibre de liaison

Wikipedia

On dit qu’il y a d ´es ´equilibre de liaison si la fr ´equence des gam `etes porteurs des all `eles de deux locus diff ´erents est diff ´erente du produit des fr ´equences des all `eles.

C’est- `a-dire s’il y a une association pr ´ef ´erentielle entre deux all `eles de deux locus.

(8)

Math ´ematiquement parlant

(9)

Les mesures usuelles : cas biall ´elique

(10)

Les mesures usuelles

Un regard plus statistique

-∆M1,ila dose d’all `eleiau locusM1 -∆M2,jla dose d’all `elejau locusM2

Dij=Cov(∆M1,i,∆M2,j) r2ij=Cor2(∆M1,i,∆M2,j)

Pour des haplotypes (phase connue)

M1,i= 0 ou 1 (idem∆M2,j)

Pour des g ´enotypes (phase inconnue)

M1,i= 0 , 1, 2 (idem∆M2,j)

Rogers & Huff, Genetics, 2009

(11)

Estimation de la mesure r

2

Soit l’observation des doses all ´eliques pour un ´echantillon de tailleN

M1,i =

 δM1,i,1

... δM1,i,n

... δM1,i,N

M2,j=

 δM2,j,1

... δM2,j,n

... δM2,j,N

ˆ

r2ij=dCor2(∆M1,i,∆M2,j) o `uCordest la corr ´elation empirique

(12)

Les mesures usuelles

Exemple

Soit l’observation des doses all ´eliques pour un ´echantillon de tailleN=10. Le premier SNP a pour all `eles A/T et le second T/A.

M1,A=

1 0 1 1 0 2 2 1 2 0

M2,T=

2 0 1 1 0 1 2 1 2 1

ˆr2ij=0.54 dans R cor(,)ˆ2

(13)

Biais et solution

ˆr2 est biais ´e,Esp(ˆr2)6=r2

lorsque l’ ´echantillon a une structure

lorsque les individus sont fortement apparent ´es et d’apparentements contrast ´es

Des mesures qui corrigent ces biaisr2S,rV2,r2VS

Mangin et al., Heredity, 2011 lorsque la structure est connue (ou estim ´ee)S

lorsque l’apparentement est connu (ou estim ´e)V

(14)

Les nouvelles mesures

D ´efinition

corrig ´ee de la structureS

rS,ij2 =Corr2(∆M1,i,∆M2,j;S)

corrig ´ee de l’apparentementV

r2V,ij=Cor2(V−1/2M1,i,V−1/2M2,j)

corrig ´ee de la structure et de l’apparentementS,V rVS,ij2 =Corr2(V−1/2M1,i,V−1/2M2,j;S)

o `uCorr(X,Y;Z)d ´enote la corr ´elation partielle deXetYlorsqueZest constant,

ou encore la corr ´elation des r ´esidusXetYdes r ´egressions lin ´eairesX=+XetY=0+Y

Package R : LDcorSV

(15)

Estimation des nouvelles mesures

Comme pourr2, la corr ´elation est estim ´ee par la corr ´elation empirique.

On utilise la matrice S de structure en K groupes de l’ ´echantillon

S=

S1,1 . . . S1,K

... ... ... Sn,1 . . . Sn,K

... ... ... SN,1 . . . SN,K

Exemple

3 plants de ma¨ıs d’Europe et 2 plants de ma¨ıs des Etats Unis

⇒2 groupes

S=

1 0 1 0 1 0 0 1 0 1

(16)

Les nouvelles mesures

On utilise la ma- triceVde variance- covariance de l’ ´echantillon

V=

V1,1 . . . V1,n . . . V1,N

... ... ... ... ... Vn,1 . . . Vn,n . . . Vn,N

... ... ... ... ...

VN,1 . . . VN,n . . . VN,N

Exemple

2 plants de ma¨ıs plein-fr `eres non-apparent ´es `a 3 plants de ma¨ıs non-apparent ´es.

V=

1 0.25 0 0 0 0.25 1 0 0 0

0 0 1 0 0

0 0 0 1 0

0 0 0 0 1

(17)

Exemple pour la correction de la structure

On observe 100 plants de tournesol cultiv ´es en Europe et 100 plants cultiv ´es en Argentine, pour 2 marqueurs. Le premier SNP a pour all `eles A/T, le second G/C.

Pour une question de place, le vecteur des doses all ´eliques est repr ´esent ´e en ligne plut ˆot qu’en colonne.

tM

1,A={ 1, . . . ,1,

| {z }

1, . . . ,1,

| {z }

0, . . . ,0,

| {z }

0, . . . ,0,

| {z }

0, . . . ,0,

| {z }

1, . . . ,1

| {z } }

80 10 10 80 10 10

groupe Europ´een groupe Argentain

tM

2,G={ 1, . . . ,1,

| {z }

0, . . . ,0,

| {z }

1, . . . ,1,

| {z }

0, . . . ,0,

| {z }

1, . . . ,1,

| {z } 0, . . . ,0

| {z } }

80 10 10 80 10 10

groupe Europ´een groupe Argentain

ˆ

r2=0.36 ˆrS=0.012

Dans le groupe Europ ´een :ˆr2 =0.012 dans le groupe Argentain :ˆr2=0.012

(18)

Les nouvelles mesures

Exemple pour la correction de l’apparentement

On observe 110 abricotiers, dont les 50 premiers ont tous ´et ´e clon ´es `a partir d’un seul individu. Les autres sont tous non apparent ´es. Les deux marqueurs sont pour le premier C/T et le second G/A.

tM

1,C={ 1, . . . ,1,

| {z }

1, . . . ,1,

| {z } 0, . . . ,0

| {z } }

50 10 50

clˆones

tM

2,G={ 1, . . . ,1,

| {z }

1,0, . . . ,1,0,

| {z } }

50 30

clˆones

ˆ

r2=0.217 ˆrV =0.001 En ne gardant qu’un seul des cl ˆones :ˆr2=0.001

(19)

Bien estimer le DL, pourquoi ?

Pour limiter le g ´enotypage

Deux SNP en fort DL apportent une information redondante, il n’est donc pas d’un grand int ´er ˆet de les g ´enotyper tous les deux.

Pour “couvrir” toute la r ´egion g ´enomique d’int ´er ˆet

L’objectif est que tous les SNP non g ´enotyp ´es soient “couverts”

par au moins un SNP g ´enotyp ´e en fort DL.

(20)

Les nouvelles mesures

Illustration

(21)

Tester l’association

les ph ´enotypes de maladie le dispositif cas-contr ˆole les ph ´enotypes continus

mod `ele simple

mod `ele corrig ´e des effets de la structure mod `ele corrig ´e des effets de la structure et de l’apparentement

(22)

Les ph ´enotypes “maladies”

Le dispositif cas-contr ˆ ole

Le test se calcule `a partir de la table de comptage, aussi appel ´ee table de contingence suivante :

(23)

Utilisation der2

Le ph ´enotype “maladie“ peut ˆetre vu comme un marqueur un peu particulier. Au locuslde la maladie, au lieu de la dose all ´elique d’un marqueur, on a

l =

(1 si malade 0 si sain On estimera alorsri2=Cor2(∆l,∆M1,i)par

ˆri2=Cord2(∆l,∆M1,i)

Sous l’hypoth `eseH0: {pas d’association all `eleiavec la maladie}

ˆr2i ∼χ2(1)

(24)

Les ph ´enotypes “maladies”

Puissance et mesure r

2

Pritchard & Przeworski, Am. J. Hum.Genet., 2001 Pour des marqueurs biall ´eliques

Pour avoir la m ˆeme puis- sance, qu’au locus causal

Ni=N4/r2i4

Plus on s’ ´eloigne du locus causal, plus il faut d’observations, pour garder de la puissance de d ´etection.

(25)

Mod `ele lin ´eaire `a 1 facteurtable ANOVA

Effet du SNP fixe

Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :

% SNPln=1Y1k=µ+θl+1k

Yn

& SNPln=0Y0k=µ+0k

θlmod ´elise la diff ´erence d’influence des deux all `eles du SNP sur le ph ´enotypeY

SNPlnest la dose d’all `ele A pour un SNP enlqui est A/T, par exemple

G ´en ´eralisation

Ce mod `ele se g ´en ´eralise aux cas de g ´enotypes manquants inf ´er ´es ou imput ´es, ainsi qu’aux individus h ´et ´erozygotes en choisissant un mod ´ele additif et/ou dominant pour l’effet du SNP

(26)

Les ph ´enotypes continus : le mod `ele le plus simple

Les limites du mod `ele

objectif de l’analyse : rechercher les SNPs qui sont causaux. Lorsqu’un SNP est fortement diff ´erenci ´e entre deux groupes, il pourra ˆetre trouv ´e associ ´e au ph ´enotype sans ˆetre causal.

postulat du mod `ele : les observations sontind ´ependantes.

Ce n’est pas le cas lorsque les individus observ ´es sont apparent ´es

Solution

Pour r ´epondre aux limites du mod `ele simple, le mod `ele se complexifie

pour corriger de la structure pour corriger de l’apparentement

(27)

Mod `ele lin ´eaire `a deux facteurs

Effet du SNP fixe + stucture fixe

Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :

% SNPln=1Yn=µ+Snβ+θl+n

Yn

& SNPln=0Yn=µ+Snβ+n

Sn est la ligne correspondant `a l’individundans la matrice de structureS

M ˆemes remarques pour la g ´en ´eralisation du mod `ele que pour le mod `ele simple

(28)

Les ph ´enotypes continus : corriger de la structure

Illustration

Exemple

3 plants de ma¨ıs d’Europe et 2 plants de ma¨ıs des Etats Unis2 groupes

S=

1 0

1 0

1 0

0 1

0 1

Exemple pourSnβ

2 groupes : sinappartient au groupe 1,Snβ =β1

sinappartient au groupe 2,Snβ =β2 Ce mod `ele consiste `a ne pas mod ´eliser la moyenne du ph ´enotype observ ´e dans chacun des groupes de la m ˆeme fac¸on.

(29)

Illustration

La valeur des tests sur les marqueurs corr ´el ´es `a la structure (ceux qui sont diff ´erenci ´es) diminue. Ils ne peuvent plus ˆetre trouv ´es comme associ ´es.

(30)

Les ph ´enotypes continus : corriger de la structure et de l’apparentement

Mod `ele lin ´eaire mixte

Yu et al., Nature Genetics, 2006

Effet du SNP fixe + stucture fixe + covariance g ´en ´etique Cas d’individus homozygotes, sans donn ´ee manquante pour le g ´enotype :

% SNPln=1Yn=µ+Snβ+θl+Gn+n

Yn

& SNPln=0Yn=µ+Snβ+Gn+n

Sn est la ligne correspondant `a l’individundans la matrice de structureS

Gnest un valeur g ´en ´etique den. Soit Gt = (G1, . . . ,Gn, . . . ,GN),Var(G) =σG2ΣG

Var(Y) =σG2ΣG2Id

m ˆemes remarques pour la g ´en ´eralisation du mod `ele que pour le mod `ele simple

(31)

Puissance et mesure r

VS2

Mangin et al., Heredity, 2011 Pour des marqueurs biall ´eliques

Pour avoir la m ˆeme puissance, qu’au lo- cus causal

Ni =N4/rVS2 i4

avec

V =σ2GΣG2Id

(32)

Estimations et tests dans le mod `ele lin ´eaire mixte

Estimation dans le mod `ele lin ´eaire mixte

Yn=µ+Snβ+SNPlnθl+Gn+n

Deux types de param `etres `a estimer

les param `etres entrant dans la variance deY (composantes de la variance)

les param `etres des effets fixes

Les composantes de la varianceσG2 etσ2

Elles sont estim ´ees par ML (Maximum Likelihood) ou REML (Restricted ML)

Si on parle de vraisemblance, c’est queYn a une loi connue.

Cette loi est une Gaussienne⇒Gnetnsont aussi Gaussiens.

C’est un postulat n ´ecessaire pour le mod `ele mixte.

(33)

Les composantes de la varianceσG2 etσ2

Les estimateurs du maximum de vraisemblance sont des estimateurs biais ´es (leur esp ´erance n’est pas ´egale aux param `etres qu’il estiment).

Le REML

M ´ethode qui consiste `a estimer par maximum de vraisemblance mais apr `es avoir projet ´eY sur l’espace orthogonal pourV aux effets fixes

La diff ´erence entre ML et REML

dans un cas simple, juste une question de d ´enominateur Exemple :Yn=µ+npourn=1, . . . ,N

ˆ σ2ML =

P(Ynµ)ˆ2

N σˆ2REML =

P(Yn−ˆµ)2 N−1

(34)

Estimations et tests dans le mod `ele lin ´eaire mixte

Algorithme de ML et/ou REML

Il n’existe pas de formule analytique pour calculer les estimateurs du ML ou du REML.

Les algorithmes qui r ´esolvent cette question de maximisation, atteignent le maximum par it ´erations successives. Ils prennent beaucoup de temps CPU, en particulier car la matrice de covariance g ´en ´etiqueΣGdoit ˆetre invers ´ee. Et ils sont longs `a converger.

Une autre approche consiste `a ne pas maximiser la vraisemblance mais seulement une approximation de la

vraisemblance, plus simple `a maximiser. Cette approximation a cependant la propri ´et ´e d’ ˆetre ´equivalente asymptotiquement `a la vraisemblance. Elle permet le “passage `a l’ ´echelle”

c’est- `a-dire tester des millions de SNP.

(35)

Tester l’effet d’un SNP dans le mod `ele lin ´eaire mixte

test de Wald au marqueurl

Le principe est de faire comme si la variance des observations

´etait connue et d’utiliser l’estimateur deθl ainsi que sa variance, classiquement obtenus par les moindres carr ´es g ´en ´eralis ´es Pour estimer les composantes de la variance on utilise le REML.

La variance “suppos ´ee connue” estVb = ˆσ2GREMLΣG+ ˆσ2REMLId Le test de Wald au locusl: θl−θl)2

Var(ˆθl)

suit asymptotiquement une loi deχ2(1)sous l’hypoth `ese H0 :{pas d’association}

(36)

Estimations et tests dans le mod `ele lin ´eaire mixte

Tester l’effet d’un SNP dans le mod `ele lin ´eaire mixte

test du rapport de vraisemblance (ML) au marqueurl Pour faire ce test on utilise le ML jamais le REML

RV(l) = maximum de la vraisemblance siθl =0 maximum de la vraisemblance si un QTL est enl

−2 ln(RV)suit asymptotiquement une loi deχ2(1)sous l’hypoth `eseH0: {pas d’association}

(37)

Mais on fait des millions de tests ....

Tests multiples non ind ´ependants

Que ce soit pour les ph ´enotypes binaires ou continus, un test d’association est affectu ´e par SNP. Chacun de ces tests sous l’hypoth `eseH0: {pas d’association}est compar ´e unχ2 `a 1 degr ´e de libert ´e. Mais d’un SNP `a un autre, les tests ne sont pas ind ´ependants.

Bonferroni trop conservateur

=⇒ On ne peux pas utiliser la correction de Bonferroni car elle conduit `a un seuil de rejet tr `es petit, donc `a un test

beaucoup trop conservateur, donc tr `es tr `es peu de puissance, donc pas de SNP trouv ´es associ ´es.

(38)

Seuil

En pratique

Bonferroni moins conservateur

=⇒ Au lieu d’utiliser le nombre de SNP pour corriger la p-value du test, on calcule un ´equivalent du nombre de SNP ind ´ependants.

Li & Ji, Heredity, 2005

FDR

=⇒ On peut aussi utiliser le FDR pour contr ˆoler le taux de faux positifs.

Permutation

=⇒ On peut aussi faire des permutations, mais cela demande beaucoup de CPU. Avec de la parall ´elisation cela reste possible.

(39)

Estimer la structure d’un ´echantillon

Voir la partie du cours de “g ´en ´etique des populations”

(40)

La matrice Σ

G

Deux grandes m ´ethodes

Lorsque le pedigree est connu A l’aide des marqueurs

Lorsque l’on dispose de nombreux marqueurs, la deuxi `eme m ´ethode donne des r ´esultats plus pr ´ecis, en effet elle est capable de voir des diff ´erences entre deux plein-fr `eres. On dit qu’elle ”suit les al ´eas de la m ´eiose”.

(41)

Lorsque le pedigree est connu

Le coefficient d’apparentement (coancestry)

Weir et al., Nature Rev Genet, 2006

(42)

CalculerΣG, souvent appel ´ee kinship

Lorsque la covariance g ´en ´etique est estim ´ee avec les marqueurs

AIS

La premi `ere proposition consiste `a compter le nombre esp ´er ´e d’all `eles identiques entre deux individus, c’est le coefficient AIS (alike in state) aussi appel ´ee IBS (identity by state).

C’est quoi le nombre esp ´er ´e ?

Soit un SNP A/T

AA AT TT

AA 2 1 0

AT 1 1/2(0+2)=1 1

TT 0 1 2

(43)

Exemple

Deux individus,ind1etind2, g ´enotyp ´es pour 10 marqueursl.

Codage du g ´enotype : 0 = homozygote pour l’all `ele mutante, 2 = homozygote pour l’all `ele du r ´ef ´erent, 1 = h ´et ´erozygote

somme Mind1= ( 0, 0, 1, 1, 2, 1, 0, 0, 1, 2 ) Mind2= ( 0, 2, 1, 0, 2, 0, 0, 0, 1, 2 )

AISl= ( 2, 0, 1, 1, 2, 1, 2, 2, 1, 2 ) 14

AIS(ind1,ind2)= 14 / ( 2×10) = 0.7 Prori ´et ´e de l’AIS

AIS(ind1,ind2)= PL

l=1

Mlind

1Mlind

2+ (2−Mindl

1)(2−Mlind

2)

4L

AIS(ind1,ind1)=1, 0≤AIS(ind1,ind2) ≤1

(44)

CalculerΣG, souvent appel ´ee kinship

Avec les marqueurs, de nombreuses autres propositions

Kinship de type ”VanRanden”

K(ind1,ind2) = PL

l=1Mindl

1Mindl

2

C = Mindt

1Mind2

C

o `uMind1 peut avoir ´et ´e au pr ´ealable centr ´e et/ou r ´eduit par SNP pour l’ ´echantillon d’ ´etude.

La constanteCn’a aucune influence sur les r ´esultats, elle peut ˆetre fix ´ee `a une valeur arbitraire.

(45)

... ou encore

Software:CoCoa, Maenhout et al., Bioinformatics, 2009

(46)

Caract ´eristique d’une ”bonne” kinship

Une matricesemi-d ´efinie positive (sdp)dont les ´el ´ements sont compris entre 0 et 1

(47)

Les logiciels

ASREML, g ´en ´erique pour les mod `eles mixtes, dans R, maximise la vraisemblance, test du rapport de

vraisemblance

EMMA et suivants, sp ´ecifique de “association mapping”, dans R, maximise une approximation de la vraisemblance, test de Wald

Tassel, sp ´ecifique de “association mapping”, java, propose la maximisation de la vraissemblance et de son

approximation ainsi que le test du rapport de vraisemblance et celui de Wald

Plink, sp ´ecifique de “association mapping”, pas de mod `ele mixte, plut ˆot sp ´ecifique des applications en g ´en ´etique humaine

(48)

Illustration

R ´esultats du test d’association pour un mod `ele

Manhattan plot

(49)

R ´esultats du test pour plusieurs mod `eles

Diff ´erentes matrices de structure, diff ´erentes matrices de covariance g ´en ´etique

Références

Documents relatifs

En mathématiques (mais pas souvent en Terminale S), ces cas sont fréquents : on fait alors seulement des calculs approchés mais heureusement les moyens informatiques

Pour illustrer le cours de m´ ecanique des milieux continus, on se concentre sur l’analyse du comportement ´ elastique des mat´ eriaux et des structures, d’abord dans le cas g´

Le monomorphisme canonique E^j —y Ej est alors un isomorphisme (en particulier l'anneau associé à un module fortement continu est régulier auto-injectif à droite).. , u n sont

Après avoir introduit la modélisation des efforts et les lois de conservation par le principe des puissances virtuelles, nous appliquerons ces lois de conservation aux lois de

Pourtant dans la plupart des situations, le spectre du signal à échantillonner s'étale sur tout le domaine des fréquences (tout en diminuant du coté des hautes fréquences),

Les ions responsables de l’acidité sont de plus en plus dispersés dans la solution ; on dit que la solution est moins concentrée en ions?. La dilution a pour effet

que deux quelconques des arcs obtenus ont au plus k points communs. En ddfinitive nous pouvons ~noncer le th~or~me suivant.. On le volt imm6diatement sur

J^R^t, p"). D'après le théorème fondamental I du chapitre i, le système associé à û/^g conduit à des équations aux dérivées partielles du second ordre. Ces