Open Archive Toulouse Archive Ouverte (OATAO) OATAO is an open access repository that collects the work of Toulouse researchers and makes it freely available over the web where possible.

(1)

Any correspondence concerning this service should be sent to the repository administrator:

staff-oatao@inp-toulouse.fr

This is an author-deposited version published in:

http://oatao.univ-toulouse.fr/

Eprints ID: 12138

To cite this version:

Jacquin, Laval Yannis Julien Optimisation des méthodes statistiques d'analyse de

la variabilité des caractères à l'aide d'informations génomiques. (2014) .

(Unpublished)

O

pen

A

rchive

T

oulouse

A

rchive

O

uverte (

OATAO

)

OATAO is an open access repository that collects the work of Toulouse researchers and

makes it freely available over the web where possible.

(2)

Optimisation des m ´ethodes statistiques d’analyse de la

variabilit é des caract ères à l’aide d’informations

g ´enomiques

Laval JACQUIN

(3)

Plan de l’expos ´e

1

_{Contexte et objectifs de la th `ese}

2

_{Discrimination entre mod `eles d’association (LDA) et de liaison (LA)}

par rapport à des structures g én étiques (cadre uni-SNP)

3

_{Discrimination entre mod `eles LDA utilisant des haplotypes}

(4)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

La cartographie de QTL

Mesure du d ´es ´equilibre de liaison (LD)

Les mod `eles d’association (LDA) et mod `eles de liaison (LA)

Cadre et objectifs

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

3

Discrimination entre mod `eles LDA utilisant des haplotypes

(5)

(6)

Contexte : mesure du d ´es ´equilibre de liaison

Mesure du LD : quantit é math ématique qui quantifie la non-ind épendance probabiliste entre les

all `eles de deux loci M1et M2

•Cas biall ´elique : M1→ {a1,a2}et M2→ {b1,b2}

Coefficient de LD biall ´elique :∆ =fa1b1−fa1fb1 (=fa1b1fa2b2−fa1b2fa2b1)

Mesure der ´ef ´erence du LD : r2=∆

2

K ∈ [0,1] (Hill et Robertson, 1968) o `u K=fa1fa2fb1fb2

•G én éralisation (cas multiall élique) : M1→ {a1, ..,aI}et M2→ {b1, ..,bJ}

G ´en ´eralisation du r2: R= I X i=1 J X j=1 ∆2ij K0 ∈ [0,1] (Maruyama, 1982)

o `u∆ij=faibj −faifbj (m ˆeme construction que∆) et K

0 = 1− I X i=1 fa2i 1− J X j=1 fb2j

(7)

Contexte : mesure du d ´es ´equilibre de liaison

2

0 = 1− I X i=1 fa2i 1− J X j=1 fb2j

(8)

Contexte : mesure du d ´es ´equilibre de liaison

2

0 = 1− I X i=1 fa2i 1− J X j=1 fb2j

(9)

Contexte : mod `eles LDA (cadre uni-SNP)

Les mod `eles d’association (LDA)

•Mod èles bas és sur leLD populationnel (ph énom ène assez local)

•Assez pr ´ecis, puissants etrobustes si correction pour la structure

(Sham et al., 2000 ; Newman et al., 2001 ; Yu et al., 2005 ; Zhang et al., 2009) Exemple : Yk= µ +Xkα + εk

Si le mod èle est additif :αˆ=EY|g énotype 1/1 − EY|g énotype 2/2

(10)

Contexte : mod `eles LA (cadre uni-SNP)

Les mod `eles de liaison (LA)

•Mod èles bas és sur leLD intra famille (ph énom ène peu local)

•Robustes,peu pr écis, et puissants si l’effet du QTL est au moins mod ér é

(Bodmer, 1986 ; Boehnke, 1994 ; Sham et al., 2000 ; Fan et Xiong, 2002)

Exemple : Yilk= µ +Xilkηi+ εilk

Si le mod èle est additif :ηî=EY|reçu 1 − EY|reçu 2

(11)

Cadre de la th `ese

Questions li ées aux puces à haute densit é :

•Mod `eles uni-SNP (usuels) : analyse de liaison (LA) versus analyse d’association (LDA) pour la cartographie de QTL ?

•Mod `eles LDA : gagne en succ `es (Newman et al., 2001 ; Zhang et al., 2009)

•D éfaut des mod èles uni-SNP : peuvent mener à une d étection à longue distance

(nature du LD biall ´elique : Weiss et Clark, 2002)

•Solution : description bien plus locale du LD par les haplotypes

(12)

Cadre de la th `ese

Questions li ées aux puces à haute densit é :

•Mod `eles uni-SNP (usuels) : analyse de liaison (LA) versus analyse d’association (LDA) pour la cartographie de QTL ?

•Mod `eles LDA : gagne en succ `es (Newman et al., 2001 ; Zhang et al., 2009)

•D éfaut des mod èles uni-SNP : peuvent mener à une d étection à longue distance

(nature du LD biall ´elique : Weiss et Clark, 2002)

•Solution : description bien plus locale du LD par les haplotypes

(13)

Cadre de la th `ese

Questions li ´ees `a l’utilisation des haplotypes pour l’association :

•Peu de formalisme expliquant les pr ´ecisions des mod `eles utilisant des haplotypes par rapport au LD

•Les m éthodes haplotypiques associ ées utilisent des concepts6= (IBD, IBS, Clusters..) : ,→cadre non-unifi é

Tous despr édicteurs de l’identit é entre les all èles port és par des chromosomes (ou AIP) ?

(14)

Objectifs de la th `ese

Discriminer entre les mod `eles LDA et LA (uni-SNP) utilis ´es en routine ; analytiquement et par simulations :

•Quantifier : puissance et robustesse statistique par rapport `a des structures de donn ´ees

•But : trouver les situations o `u le LA est plus avantageux que le LDA

Discriminer entre les mod èles LDA haplotypiques associ és aux “Pr édict. d’Ident. All élique” :

•Apporter des él éments de th éorie (cadre unifi é) sur la prise en compte du LD

(15)

Objectifs de la th `ese

(16)

Objectifs de la th `ese

(17)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

Mod `eles LDA et LA compar ´es

Structures g én étiques consid ér ées

R ´esultats obtenus pour les mod `eles LDA et LA

Puissances et taux de faux positifs estim ´es par Monte-Carlo (MC)

Comparaison des r ´esultats estim ´es et analytiques

Conclusions, limites et perspectives de l’ ´etude

3

Discrimination entre mod `eles LDA utilisant des haplotypes

(18)

Mod `eles LDA et LA compar ´es (cadre uni-SNP)

Cadre :plan équilibr é pour des populations de familles de demi-fr ères

,→fr ´equent chez les ruminants, r ´esultats analytiques possibles Notations :

•p=nb. de familles de p `eres ; m=nb. de descendants par famille ; n=mp individus

Deux mod `eles additifs d’association :

YA=XAβA+ A ; A∼ Nn(0,V)

1) Mod `ele corrig ´e : V= σ2

uA+ σ2εIn 2) Mod `ele homosc ´edastique : V= σ2εIn

          Y_A(1) . . . YA(i) . . . Y_A(p)           =           X_A(1) . . . XA(i) . . . X_A(p)           µ α = βA +           (1)_A . . . (i)A . . . (p)A          

(19)

Mod `eles LDA et LA compar ´es (cadre uni-SNP)

Cadre :plan équilibr é pour des populations de familles de demi-fr ères

,→fr ´equent chez les ruminants, r ´esultats analytiques possibles

Notations :

•p=nb. de familles de p `eres ; m=nb. de descendants par famille ; n=mp individus

Deux mod `eles additifs d’association :

YA=XAβA+ A ; A∼ Nn(0,V)

1) Mod `ele corrig ´e : V= σ2

uA+ σ2εIn 2) Mod `ele homosc ´edastique : V= σ2εIn

          Y_A(1) . . . YA(i) . . . Y_A(p)           =           X_A(1) . . . XA(i) . . . X_A(p)           µ α = βA +           (1)_A . . . (i)A . . . (p)A          

(20)

Deux mod `eles additifs de liaison (ou transmission=“T”) :

YT =XTβT+ T ; T ∼ Nn(0, ˜V) (Knott et al.,1996)

1) Mod èle h ét érosc édastique :V˜=

˜ p

M

i=1

σ2

εiIm˜i 2) Mod `ele homosc ´edastique :V˜= σ

2 εI˜n           YT(1) . . . Y_T(i) . . . Y_T(˜p)           =           XT(1) . . . X_T(i) . . . X_T(˜p)                  µ1 . . µ˜p δ1 . . δ˜p        = βT +           (1)T . . . (i)T . . . (˜_Tp)           o `u ;

µi=moyenne dans la famille i

δi=effet additif des all `eles au SNP test ´e dans i

X_T(i): d écrit l’incidence de ces él éments dans i

Contrairement à ce qui pr éc ède :p˜<p

˜

(21)

Statistiques de Fisher associ ´ees aux mod `eles

SousH0:

Deux statistiques LDA selonV :

ˆ FA= (XAβÂ−X0Aβˆ0A)0V−1(XAβÂ−X0Aβˆ0A)/1 (YA−XAβÂ)0V−1(YA−XAβÂ)/n−2 ∼ H0 F(1,n−2)

Deux statistiques LA selonV :˜

ˆ FT = (XTβˆT−X0Tβˆ0T)0V˜−1(XTβˆT−X0Tβˆ0T)/˜p (YT−XTβˆT)0V˜−1(YT−XTβˆT)/˜n−2˜p ∼ H0 F(˜p, ˜n−2˜p)

Etude de la puissance et de la robustesse par simulations

Rappel : sousH1F suit une loi d ´ecentr ´ee d’un facteurˆ λ

sousH0: λ =0

•Si on connaˆıtλ: r ´esultats analytiques possibles

(22)

Statistiques de Fisher associ ´ees aux mod `eles

SousH0:

Deux statistiques LDA selonV :

ˆ FA= (XAβÂ−X0Aβˆ0A)0V−1(XAβÂ−X0Aβˆ0A)/1 (YA−XAβÂ)0V−1(YA−XAβÂ)/n−2 ∼ H0 F(1,n−2)

Deux statistiques LA selonV :˜

ˆ FT = (XTβˆT−X0Tβˆ0T)0V˜−1(XTβˆT−X0Tβˆ0T)/˜p (YT−XTβˆT)0V˜−1(YT−XTβˆT)/˜n−2˜p ∼ H0 F(˜p, ˜n−2˜p)

Etude de la puissance et de la robustesse par simulations

Rappel : sousH1F suit une loi d ´ecentr ´ee d’un facteurˆ λ

sousH0: λ =0

•Si on connaˆıtλ: r ´esultats analytiques possibles

(23)

Structures g én étiques consid ér ées

Simulation des ph énotypes selon un sch éma poly éniquemarqueur test é=QTL:

i)ykfamille i= µ + 1 2poly.p`ere famille i k + 1

2poly.mèrek+aléa.méiosek+g QTL k + εk

Variantes du sch ´ema polyg ´enique :

ii)Variances r ´esiduelles diff ´erentes :σε216= .. 6= σ

2 εp

iii)Moyennes diff ´erentes :µfamille i

iv)Epistasie : un locus en interaction avec le marqueur test ´e

(24)

Structures g én étiques consid ér ées

2 εp

(25)

Structures g én étiques consid ér ées

2 εp

(26)

•poly.pèrefamille ik ,poly.mèrek∼ N 0,1 2 ,aléa.méiosek∼ N 0,1 4 et εk∼ N (0,1)

•Sch émas i)à i)bis _{étudi és :}

-Pour un QTL expliquant entre0 et 10 % de la variance totale

-Fr ´equences all ´eliques de 0.5sous HWE au QTL

-Nb. d’individus n=600 (p=20 et m=30)

(27)

R ´esultats : puissances et taux de faux positifs estim ´es (Monte-Carlo)

i) Sch éma polyg énique de r éf érence : [Sch éma i) :σ2

ε1= .. = σ

2 εp= σ

2

εinter-familles] : LDA homosc ´edastique / : LA homosc ´edastique

: LDA corrig ée : taux de faux positifs fix é à 0.01

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Moyenne du pourcentage de variance expliquée par le génotype au QTL

Puissance

FIGURE1:Puissances estim ´ees pour le sch ´ema i)

10 20 30 40 50 0.0 0.1 0.2 0.3 0.4

Nombre de descendants pour chaque père

T

aux d'erreur de première espèce

FIGURE2:Taux de faux positifs pour le sch ´ema i)

(28)

R ´esultats : puissances et taux de faux positifs estim ´es (Monte-Carlo)

i)bis_{SNP test é est en LD variable avec QTL (sch éma polyg énique) :}

: LDA homosc édastique / : LA homosc édastique : LDA corrig ée

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Puissance

FIGURE3:Puissances estim ´ees,r2₌_0.50

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Puissance

FIGURE4:Puissances estim ´ees,r2₌_0.10

Mod èles d’association perdent en puissance de d étection à plus de 20Kb≈r2_<₀_.₅

(Sham et al., 2000) R ésultats vraisemblables par rapport à des situations r éelles (De Roos et al., 2008)

(29)

Superposition des r ésultats analytiques et estim és ( sch éma i)

polyg ´enique )

R ´esultats analytiques :

Facteurs pour les statistiques LDA et LA (FˆAetˆFT) sous H1:

LDA :    λhomo. A =

f

(n, α,fa1,fa2, σ 2 ε) λcorrig´_A e=

f’

(n, α,fa1,fa2, σ 2 ε, σu2) LA :    λhomo.T =

g

(m,pe, δi,fa1,fa2, σ 2 ε) λh´et´ero. T =

g’

(m,pe, δi,fa1,fa2, σ 2 εi)

(30)

Superposition des r ésultats analytiques et estim és ( sch éma i) )

Courbes analytiques (−−) et estim ´ees (−) :

: LDA homosc édastique / : LDA corrig ée : LA homosc édastique

(31)

Causes de d éviations entre les r ésultats analytiques et estim és

Causes multiples !

Principalement :hypoth èses des mod èles pour la d érivation des facteurs associ és

•Les fr équences esp ér ées sous HWE sont r éalis ées : faux pour les simulations ! !

•Moyennes et variances (6=simulations)

•LA sensible aux simulations : nb. de p ères a1a2, nb. descendants a1a1et a2a2r éalis és

(32)

Conclusions, limites et perspectives de l’ ´etude

R ésultats coh érents et vraisemblables par rapport à des situations r éelles

Les mod èles LDA : plus puissants que les mod èles LA ( échantillon fini, QTL à petit effet, épistasie)

Les mod èles LDA : robustes si on corrige pour la structure g én étique

Situations comportant un int ér êt pour le LA (pour un QTL à effet au moins mod ér é) :

•r2_{populationnel faible :}

-Carte g én étique de faible densit é

-M élange de populations : m ême all èle à un SNP en association avec des all èles diff érents

Les mod èles LA sont g én éralement peu pr écis

Limites de l’ étude :populations de familles de demi- fr ères, mod èles uni-SNP

Perspective :m ˆeme ´etude avec des haplotypes

(33)

Conclusions, limites et perspectives de l’ ´etude

Situations comportant un int ér êt pour le LA (pour un QTL à effet au moins mod ér é) : •r2_{populationnel faible :}

(34)

Conclusions, limites et perspectives de l’ ´etude

Situations comportant un int ér êt pour le LA (pour un QTL à effet au moins mod ér é) :

•r2_{populationnel faible :}

(35)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

3

Discrimination entre mod `eles LDA utilisant des haplotypes

Mod `eles LDA haplotypiques compar ´es

M ´ethode de discrimination des AIP : comparaison matricielle

R ´esultats obtenus pour la discrimination des mod `eles

Distance matricielle en fonction des coefficients de R (LD)

Proposition d’un crit ère num érique : l’efficacit é relative

Pr ´ecision des AIP et autres r ´esultats

Conclusions, limites et perspectives de l’ ´etude

(36)

Mod `eles LDA compar ´es (cadre haplotypique)

Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)

i.e.6=motifs de LD

Notations :

• I = {i1, ...,ir}un ensemble de r positions test ´ees

• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})

Mod èle g én éral LDA haplotypique au locus test é i∈ I:

Y=1nµ +Zhh+Zuu+ ε

h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :

• HP,i= (sP_i,h

p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq

,→calcul ées par une m éthodeP(AIP) / bas ée sur la ressemblance entre hpet hq

• Cons équence : chaque AIP (P) d éfinit un mod èle LDA particulier

(37)

Mod `eles LDA compar ´es (cadre haplotypique)

Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD

Notations :

Y=1nµ +Zhh+Zuu+ ε

• HP,i= (sP_i,h

(38)

Mod `eles LDA compar ´es (cadre haplotypique)

Notations :

Y=1nµ +Zhh+Zuu+ ε

• HP,i= (sP_i,h

(39)

Mod `eles LDA compar ´es (cadre haplotypique)

Notations :

Y=1nµ +Zhh+Zuu+ ε

• HP,i= (sP_i,h

(40)

Mod `eles LDA compar ´es (cadre haplotypique)

Notations :

Y=1nµ +Zhh+Zuu+ ε

• HP,i= (sP_i,h

(41)

Les AIP compar ´es :

AIP discrets (i.e. s_i,hP

p,hq ∈ {0,1}) :

IBShap:

Soient hp= (122112)et hq= (122122), IBShap(hp,hp) =1 et IBShap(hp,hq) =0 IBSm: cas particulier de IBShap(all `eles d’un seul SNP, utilis ´e dans les GWAS)

AIP continus (i.e. sP_i,h

p,hq ∈ [0,1]) :

Principe de construction : deux haplotypes sont potentiellement en association avec le m ˆeme all `ele au

QTL lorsqu’ils se ressemblent (Meuwissen et Goddard 2001, 2002 ; Li et Jiang, 2005...)

Score de similarit ´e, Li et Jiang (2005) :

Scorep,q=Prk=−lw1(xk)1(hp(k),hq(k)) +Pr

0

k=−l0

k6=0

w2(xk)(distance de Hamming : comptage)

P(IBD), Meuwissen et Goddard (2001) :P(i=Id.all´elique|IBS) (th ´eorie de la coalescence)

Beagle, Browning et Browning (2006) : mod `ele probabiliste de classification

(th ´eorie markovienne : VLMC) Trained predictor : moindres erreurs de pr ´ediction (apprentissage par OLS)

(42)

Les AIP compar ´es :

p,hq ∈ {0,1}) :

IBShap:

p,hq ∈ [0,1]) :

0

k=−l0

k6=0

(th ´eorie markovienne : VLMC) Trained predictor : moindres erreurs de pr ´ediction (apprentissage par OLS)

(43)

Les AIP compar ´es :

p,hq ∈ {0,1}) : IBShap:

p,hq ∈ [0,1]) :

0

k=−l0

k6=0

(th ´eorie markovienne : VLMC)

(44)

(45)

M ´ethode de discrimination des AIP : comparaison matricielle (1)

D ´emarche :

Pest efficace et pr écis : MP,isimilaire à MQTL_{dans un}_{voisinage serr é autour du QTL et non ailleurs}

,→d1(MP,i,MQTL) =

1 4n2kM

P,i₋_MQTL_k

(46)

M ´ethode de discrimination des AIP : comparaison matricielle (1)

D ´emarche :

,→d1(MP,i,MQTL) =

1

kMP,i−MQTL_k

(47)

M ´ethode de discrimination des AIP : comparaison matricielle (1)

D ´emarche :

,→d1(MP,i,MQTL) = 1 4n2kM

P,i₋_MQTL_k

(48)

M ´ethode de discrimination des AIP : comparaison matricielle (2)

Objectifs de la d ´emarche :

Analyserth ´eoriquement la relation entre d1(MP,i,MQTL)et lescoefficients de la mesure R

Rappel de la mesure R (pour un QTL biall ´elique) :

Ri,QTL= 2 k X p=1 ∆2 p 1− K X p=1 f_i,hQTL 2 p 1− 2 X l=1 fa2l =

f

(∆1, .., ∆k)

(49)

R ´esultats : distance matricielle en fonction des coefficients de R (LD)

R ´esultats publi ´es :Using haplotypes for the prediction of allelic identity to fine-map QTL : characterization and properties (Jacquin et al., 2014)

Expression analytique de d1(MP,i,MQTL)en fonction des coefficients de R

d1(MP,i,MQTL) = k X p=1 " 4 Xk q6=p sP_i,h p,hq−s P i,hp,hp ∆2p+B.∆p+C # = ξP(∆1, .., ∆k)

B,C : som. et prod. de fr ´eq. marginales

•Comportement complexe pour un AIP continu et `a valeurs dans [0,1]

•PourP =IBShap: sPi,hp,hq=0 et s

P i,hp,hp=1 ⇒ ξIBShap_(∆ 1, .., ∆k) = k X p=1 " −4∆2p+B.∆p+C #

En esp ´erance :ξIBShap_(∆

1, .., ∆k)diminue quand R augmente, i.e.i→QTL

(50)

R ´esultats : distance matricielle en fonction des coefficients de R (LD)

1, .., ∆k)diminue quand R augmente, i.e.i→QTL

(51)

R ´esultats : distance matricielle en fonction des coefficients de R (LD)

1, .., ∆k)diminue quand R augmente,

(52)

Pour aller plus loin, k

=

2 haplotypes :

• P → [0,1] =⇒ ξP_(∆ 1) = h −4s_i,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+c

Observations particuli `eres :

• La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :

−8∆2 1 IBShap ≤h−4sP_i,h 1,h1−4s P i,h2,h2 −8≤ + 8sP_i,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]

ξP_{d ´ecroˆıtra d’autant moins vite que s}P

i,h1,h2sera grand (met en d ´efaut le principe de construction)

• ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal

∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2

Lorsque|∆1|est maximal :

ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap

(53)

Pour aller plus loin, k

=

2 haplotypes :

• ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal

∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2

ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap

(54)

Pour aller plus loin, k

=

2 haplotypes :

• ∀P → [0,1],∃une borne inf. pour la distance

lorsque|∆1|est maximal ∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2

ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap

(55)

Pour aller plus loin, k

=

2 haplotypes :

• ∀P → [0,1],∃une borne inf. pour la distance

lorsque|∆1|est maximal ∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2

ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap

(56)

Relation entre d

1

(

M

P,i

,

M

QTL

)

et R

[chrom. humains : HapMap]

FIGURE6:Distributions des distances matricielles sur 14973 fen êtres pour des loci biall éliques cach és

(57)

Proposition d’un crit ère : efficacit é relative (compl émentaire / pr écision)

Crit `ere de comparaison usuel en cartographie de QTL :

Pr ´ecision (crit `ere usuel) :

RMSEm.a._{: racine de l’ écart carr é moyen de la position estim ée par rapport à la vraie position}

Efficacit é relative (crit ère compl émentaire à RMSEm.a._{) :}

Soient θQTL: position d’un QTL et θP=argmin

i∈I

{d1(MP,i,MQTL) }

P1 est plus efficace que P2 si

   |θP1_{− θ} QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL_{) <}_d 1(MP2,θ P2 ,MQTL₎ ₍_b₎

RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1_{− θ}

QTL|

sous-crit `ere (a)

ρSpearman

(RMSEr .e.,RMSEm.a.) ≥0,9

(58)

Proposition d’un crit ère : efficacit é relative (compl émentaire / pr écision)

Crit ère de comparaison usuel en cartographie de QTL : Pr écision (crit ère usuel) :

Soient θQTL: position d’un QTL et θP=argmin i∈I

{d1(MP,i,MQTL) }

QTL|

sous-crit `ere (a)

ρSpearman

(RMSEr .e.,RMSEm.a.) ≥0,9

(59)

Proposition d’un crit ère : efficacit é relative (compl émentaire / pr écision)

{d1(MP,i,MQTL) }

QTL|

sous-crit `ere (a)

ρSpearman

(RMSEr .e.,RMSEm.a.) ≥0,9

(60)

Proposition d’un crit ère : efficacit é relative (compl émentaire / pr écision)

{d1(MP,i,MQTL) }

RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1_{− θ} QTL|

sous-crit `ere (a)

ρ

Spearman(RMSEr .e.,RMSEm.a.) ≥0,9

(61)

Autres r ´esultats : pr ´ecision des AIP

Un QTL simul é 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch éma polyg énique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :

•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)

•IBShapestmajoritairement plus efficace (m ême pour un LD mod ér é)

•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)

(62)

Autres r ´esultats : pr ´ecision des AIP

(63)

Autres r ´esultats : pr ´ecision des AIP

(64)

Autres r ´esultats : pr ´ecision des AIP

(65)

Conclusions, limites et perspectives de l’ ´etude

D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique

Efficacit é relative (2) : crit ère utile et compl émentaire à la pr écision

(1) et (2) : identification de IBShapcomme AIP de choix

IBShap:

• Avantages : bonnes propri ét és th éoriques par rapport au LD, simple, rapide et num ériquement stable

• Limites : marquage à haute densit é (≥50K), donn ées correctement phas ées

,→Consid ´erer d’autres AIP

(66)

Conclusions, limites et perspectives de l’ ´etude

IBShap:

(67)

Conclusions, limites et perspectives de l’ ´etude

IBShap:

(68)

Conclusions, limites et perspectives de l’ ´etude

IBShap:

(69)

Conclusions, limites et perspectives de l’ ´etude

IBShap:

(70)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

3

Discrimination entre mod `eles LDA utilisant des haplotypes

(71)

Conclusions g én érales de la th èse

Avantages des approches haplotypiques par rapport `a l’uni-SNP :

•Meilleure description du LD localement (somme de polyn ômes), plus pr écis •Rendre compte d’un multiall élisme quelconque

•IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :

•Reconstruction des phases

•Param étrage (taille de fen être) et temps de calcul associ és

Int ér êts du LA en cartographie : peu de LD ou validation (cas sp écifiques)

LDA : il faut savoir prendre en compte la structure Perspectives :

•Puissances et robustesses : mod `eles LDA haplotypiques

•Doit-on comparer d’autres AIP (Fastphase, ARG, l’analyse cladistique..) ? •Comprendre les ph énom ènes biologiques (interactions..) pour le d éveloppement

(72)

Conclusions g én érales de la th èse

•Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecis

•Rendre compte d’un multiall ´elisme quelconque •IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :

(73)

Conclusions g én érales de la th èse

•Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecis

•Rendre compte d’un multiall ´elisme quelconque •IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :

(74)

Remerciements

Financeurs : ANR et INRA

Directeurs de th èse : Jean-Michel Elsen et H él ène Gilbert

Jury : Didier Boichard, Maria Martinez, Miguel P ´erez-Enciso,

Anne-Louise Leutenegger et mes directeurs

Membres de l’unit ´e INRA-GENPHYSE

GENOPOLE, DGA et CTIG

(75)

Lien entre expos ´e et annexes

1 Contexte et objectifs de la th `ese

La cartographie de QTL

Mesure du d ´es ´equilibre de liaison (LD)

Les mod `eles d’association (LDA) et mod `eles de liaison (LA) Cadre et objectifs

2 Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des structures

g ´en ´etiques (cadre uni-SNP)

Mod èles LDA et LA compar és Structures g én étiques consid ér ées

R ´esultats obtenus pour les mod `eles LDA et LA

Puissances et taux de faux positifs estim ´es par Monte-Carlo (MC)

Comparaison des r ésultats estim és et analytiques Conclusions, limites et perspectives de l’ étude

3 Discrimination entre mod `eles LDA utilisant des haplotypes

Mod `eles LDA haplotypiques compar ´es

M éthode de discrimination des AIP : comparaison matricielle R ésultats obtenus pour la discrimination des mod èles

Distance matricielle en fonction des coefficients de R (LD)

Proposition d’un crit ère num érique : l’efficacit é relative

Pr ´ecision des AIP et autres r ´esultats

Conclusions, limites et perspectives de l’ ´etude

(76)

Annexes (1)

Cas d’ ´ecole : Soient : ( H1: Y∼ Nn(Xβ, σ2In) H0: Y∼ Nn(X0β0, σ2In)

Sous H1le num ´erateur deF :ˆ k ˆY− ˆY0k22=Y 0 P_E∩E⊥ 0 Y ∼ H0 σ2_χ2₍

q, λ) [th ´eo. sur les formes quadra.]

o `uλ = (Xβ)0_P

E∩E⊥ 0 (Xβ)

σ2 (facteur de d écentrage) Or, d’apr ès les th éor èmes sur les formes quadratiques : P_E_∩E⊥

0 =PE −PE0 EY0P_E∩E⊥ 0 Y = (Xβ)0P_E_∩E⊥ 0 ( Xβ) + σ2tr(P_E∩E⊥ 0 ) = σ2_{λ +} tr(P_E∩E⊥ 0 )

On voit donc que : EY0P_E∩E⊥

0 Y = EkˆY

− ˆY0k22] 6= λ

Alg ébriquement : pour le sch émas iii) [moyennes diff érentes] on aEY0P_E∩E⊥ 0 Y

> λhomo. A lorsque Y ∼ Nn(Xiiiβiii,Viii)au lieu de H1

(77)

Annexes (2)

ii) Sch éma avec des variances r ésiduelles diff érentes inter familles :

: analyse d’association homosc ´edastique / : analyse d’association corrig ´ee

: analyse de liaison h ét érosc édastique / : taux d’erreur de premi ère esp èce fix é à 0.01

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Puissance

FIGURE7:Puissances estim ´ees pour le sch ´ema ii)

10 20 30 40 50 0.0 0.1 0.2 0.3 0.4

Nombre de descendants pour chaque père

T

aux d'erreur de première espèce

FIGURE8:Taux de faux positifs pour le sch ´ema ii)

•Tr ès l ég ère inflation du taux d’erreur pour l’association h ét érosc édastique :λ 6=0⇒optimisation (EM, REML...) associ ée à l’estimation des(σ2

(78)

Annexes (3)

Soit la distance entre MP,iet MQTL_{(entrywise 1-norm) :}

d1(MP,i,MQTL) = 1 4n2kM P,i₋ MQTLk1= 1 4n2 2n X c1=1 2n X c2=1 |sPi,c1,c2−u QTL c1,c2| = k X p=1 " 4 Xk q6=p sP_i,h p,hq−s P i,hp,hp ∆2p+ Ψ P pq(∆l6=p,q)∆p+ ΦPpq(∆l6=p,q) # =ξP(∆1, .., ∆k) ΨPpq, Φ P

pq: som. et prod. de fr ´eq. marginales

•Pour un AIP continu : grand ensemble de valeurs pour les (sP_i,h

p,hq)(p,q)∈{1,..k }2

•PourP =IBShap: sPi,hp,hp=1 et s

P i,hp,hq=0 ⇒ ξIBShap_(∆ 1, .., ∆k) = k X p=1 " −4∆2p+ Ψ IBShap pq ∆p+ Φ IBShap pq #

(79)

Annexes (4) : relation locale entre

ξ

P

(∆

1

, .., ∆

k

)

et R

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Trained predictor

LD between haplotypes and target alleles

Matr ix distance f or TP at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Score predictor

Matr ix distance f or Score at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Beagle predictor

Matr ix distance f or Beagle at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 IBS_m predictor

Matr ix distance f or IBS_m at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 IBS_hap predictor

Matr ix distance f or IBS_hap at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 P(IBD) predictor

Matr

ix distance f

or P(IBD) at target SNP

FIGURE9:Distributions des distances matricielles sur 14973 fen êtres (14973 loci cach és≈QTL cach és)

(80)

Annexes (5)

0.05

0.15

0.25

0.35

R profiles between a tested position and a QTL

Tested positions E x p e c te d v a lu e o f R i,QTL 1 38 76 QTL R profile for HCB R profile for FLW QTL position 0.02 0.05 0.08

D2 profiles between a tested position and a QTL

Tested positions E x p e c te d v a lu e o f D 2i,QTL 1 38 76 QTL D2 profile for HCB D2 profile for FLW QTL position

(81)

Annexes (6)

R ´esultats importants pour k

=

2 haplotypes :

• P → [0,1] =⇒ ξP(∆1) = h −4s_i,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+ Ψ P_∆ 1+ ΦP

• P =IBShap=⇒ ξIBShap(∆1) = −8∆21+ Ψ IBShap_∆

1+ ΦIBShap

• La plus forte vitesse de d ´ecroissance : −8∆2 1 IBShap car −8≤h−4sP_i,h 1,h1−4s P i,h2,h2 −8≤ + 8sP_i,h 1,h2 ≥0 i h −4sP_i,h 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2

1d ´ecroˆıtra d’autant moins vite : h1et h2seront similaires

(cette propri ét é met en d éfaut..) • ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal :

ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2 o `u∆1∈ h −1 4, 1 4 i

• Lorsque|∆1|est maximal :

ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap

(82)

Annexes (6 bis) : conditions et limites de validit ´e pour l’IBS

hap

Valable pour toutes les m éthodes haplotypiques : donn ées correctement phas ées

(bien que l’IBShapest potentiellement plus sensible)

Densit ´e de marquage potentiellement tr `es critique :≤20K (typages informatifs)

Comment arrive-t-on `a 20K ? :

Mauvaise efficacit ´e pour l0IBShap: R=0.08 avec des haplotypes, de 6 SNP, de taille 0.75cM

soit 0.15 cM en moyenne entre 2 SNP (≈150Kb)

Extrapolation de la densit ´e de marquage critique =Taille du g ´enome chez le porc

150Kb =

3.106_Kb 150Kb =20Kb

(83)

Annexes (7) :

ξ

P

(∆

1

, .., ∆

k

)

inter position test ´ee et QTL (exemple)

Raugmente lorsque i→QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 Trained Predictor Tested_position dist_M_TP_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 Score predictor Tested_position dist_M_Score_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 IBS_hap predictor Tested_position dist_M_IBS_hap_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 P(IBD) predictor Tested_position dist_M_P_IBD_i_M_QTL QTL 0 10 20 30 40 0.2 0.3 0.4 0.5 0.6 Beagle predictor Tested_position dist_M_Beagle_i_M_QTL QTL 0 10 20 30 40 0.1 0.3 0.5 IBS_m predictor Tested_position dist_M_IBS_m_i_M_QTL QTL

FIGURE11: Distributions de distances issues de 200 genedropping235 chromosomes SSC18 (FLW) pourIcontenant un QTL[Ri∗,QTL=0.18] : courbes moyennes et quantiles empiriques `a 2.5% et 97.5%

(84)

Annexes (8) : similitude des distances pour P

(

IBD

)

et IBS

hap

P(IBD) :P(2 chromosomes ont le m ême all èle|états IBS des all èles des haplotypes)

(cf. Ytournel et al., 2007 :distribution en U)

FIGURE12: Distributions des(sP_i,c

1,c2)1≤c1,c2≤2npour IBShapet P(IBD)au QTL

un genedropping des

(85)

Annexes (9) : exemple de distributions des g ´enotypes inter-simulations

1 2 3 4 5 6 7 8 9 ₁₀ ₁₁ ₁₂ ₁₃ ₁₄ ₁₅ ₁₆ ₁₇ ₁₈ ₁₉ ₂₀ ₂₁ ₂₂ ₂₃ ₂₄ ₂₅ ₂₆ ₂₇ ₂₈ ₂₉ ₃₀

Distributions des homozygotes, intra simulation, associées à un pourcentage de variance expliquée par le génotype au QTL de 2% pour p=20 et m=15 (i.e. n=300)

Numéro de simulation

Nombre d'homozygotes a1a1 et a2a2

0 20 40 60 80 100 Nb. a1a1 Nb. a2a2 75

Moyenne sur 30 simulations Moyenne sur 30 simulations

(86)

Annexes (10) : mod `eles en grande dimension (i.e.

k

>>

n)

Soit le mod èle g én éral :

Y=Xβ + ε

βde taillek (nb. de variables, nb. de SNP par exemple) Y de taillen (nb. d’individus)

Soits le nb. de variables ayant r ´eellement un effet ; s<k (Sparsit ´e : nb. fini de QTLs par exemple)

L’estimation du support deβ(i.e. les s coefficients) est quasi-impossible si :

Crit `ere de UHD : C∗= s

nln _k s >1 2 (Verzelen, 2012) Exemple : k=50000 (nb. SNP), s=1000 (nb.QTL) et n=3000 on a C∗=1.3>0.5

Ridge, Lasso, Bay ´esien (Bayes A, B..) etc

Ridge : Yˆ=Xβˆλ o ù βˆλ=argmin β∈Rk {kY−Xβk2 2+ λkβk 2 2} p énalit é` 2 Lasso : Yˆ=Xβˆλ o ù βˆλ=argmin β∈Rk {kY−Xβk2 2+ λkβk1} p énalit é`1 Bayes A : Y= ˜Xβ + ε = µ +˜ Xβ + ε avecβ ∼ N (0,Ikσ_β2) o ùσ2_β∼ χ−2(v,S)

(87)

Annexes (10 bis) : mod `eles en grande dimension (i.e.

k

>>

n)

Comparaison entre approche positionnelle et Bayes c

π

•Des analyses sur donn ées r éelles :cor.test (uni-SNP mixte, Bayes cπ)≥0,9(Teyss èdre, 2011)

•Etude par simulation de cartographie avec Bayes cπ(Van der Berg, 2013) :

Il faut fixer une valeur grande pourπ(proportion de SNP nuls) afin de bien d ´etecter les QTL

On d étecte mieux les QTL a fort effet pour des caract ères tr ès h éritables

(fort taux de faux positifs sinon)

(88)

Annexes (11) : Structures g én étiques consid ér ées

Simulation des ph énotypes :variantes du sch éma polyg énique (o ù le marqueur test é=QTL)

i)yki = 1 2p fa.,i₊1 2p mo. k + φk+gk+ εk

sch éma polyg énique de r éf érence ii)yki = 1 2p fa.,i₊1 2p mo. k + φk+gk+ εi,stand._k

variances r ´esiduelles diff ´erentes

iii)yki = µi+ 1 2p fa.,i₊1 2p mo. k + φk+gk+ εk

moyennes diff ´erentes

iv)yki = 1 2p fa.,i₊1 2p mo. k + φk+ginteract.k +εk

a1en interaction avec b1en un locus

,→ginteract._k = αou 2αsi le g ´enotype=a1a2ou a1a1et b1est pr ´esent

i)bis_yi k= 1 2p fa.,i₊1 2p mo. k + φk+gk+ εk

marqueur test ´e6=QTL, en diff ´erent niveaux de LD

•pi,pkmo.∼ N 0,1 2 , φk∼ N 0,1 4 h

relation classique : var(φk) = 1 2var(p i₎i • εk∼ N (0,1), µi∼ N (0,2) et εik∼ N (0, σ 2 εi)o `uσ 2 εi ∼Inv -χ 2₍ 1)

(89)

Annexes (12) : Distance matricielle pour k=2 avec LD maximal

ξIBShap_(∆ 1) = −8∆12+4[( ˜α1− α1) + (α2− ˜α2)] ∆1− ( ˜α1− α1)2− (α2− ˜α2)2 + (α1+ α2)2+ ( ˜α2+ ˜α1)2 o `u ( ˜α1− α1) =fi,h1(fa2−fa1) et (α2− ˜α2) =fi,h2(fa1−fa2) Or (page 21),

∆1≤min(fa1fi,h2,fa2fi,h1) =

1

4si fa1=fi,h1= 1 2

∆1≤ −min(fa1fi,h1,fa2fi,h2) = −

1 4si fa1=fi,h1= 1 2 Pour∆1= 1 4ou− 1 4,ξ

IBShap_{est donc de la forme :}

ξIBShap_(∆

1) = −8∆12+ (α1+ α2)2+ ( ˜α2+ ˜α1)2

(90)

Annexes (13) : niveaux d’association entre haplotypes et all `eles

Cas : k≥3

fi,h1=fi,h2=fi,h3=

1

3et fa1=fa2= 1

2 (3 haplotypes et 1 QTL biall ´elique)

Supposons que h1est totalement associ ´e `a a1au QTL

La fr ´equence des a1restant est donc 1 2− 1 3= 1 6<< 1 3