Any correspondence concerning this service should be sent to the repository administrator:
staff-oatao@inp-toulouse.fr
This is an author-deposited version published in:
http://oatao.univ-toulouse.fr/
Eprints ID: 12138
To cite this version:
Jacquin, Laval Yannis Julien Optimisation des méthodes statistiques d'analyse de
la variabilité des caractères à l'aide d'informations génomiques. (2014) .
(Unpublished)
O
pen
A
rchive
T
oulouse
A
rchive
O
uverte (
OATAO
)
OATAO is an open access repository that collects the work of Toulouse researchers and
makes it freely available over the web where possible.
Optimisation des m ´ethodes statistiques d’analyse de la
variabilit ´e des caract `eres `a l’aide d’informations
g ´enomiques
Laval JACQUIN
Plan de l’expos ´e
1
Contexte et objectifs de la th `ese
2
Discrimination entre mod `eles d’association (LDA) et de liaison (LA)
par rapport `a des structures g ´en ´etiques (cadre uni-SNP)
3
Discrimination entre mod `eles LDA utilisant des haplotypes
Plan de l’expos ´e
1
Contexte et objectifs de la th `ese
La cartographie de QTL
Mesure du d ´es ´equilibre de liaison (LD)
Les mod `eles d’association (LDA) et mod `eles de liaison (LA)
Cadre et objectifs
2
Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des
structures g ´en ´etiques (cadre uni-SNP)
3
Discrimination entre mod `eles LDA utilisant des haplotypes
Contexte : mesure du d ´es ´equilibre de liaison
Mesure du LD : quantit ´e math ´ematique qui quantifie la non-ind ´ependance probabiliste entre les
all `eles de deux loci M1et M2
•Cas biall ´elique : M1→ {a1,a2}et M2→ {b1,b2}
Coefficient de LD biall ´elique :∆ =fa1b1−fa1fb1 (=fa1b1fa2b2−fa1b2fa2b1)
Mesure der ´ef ´erence du LD : r2=∆
2
K ∈ [0,1] (Hill et Robertson, 1968) o `u K=fa1fa2fb1fb2
•G ´en ´eralisation (cas multiall ´elique) : M1→ {a1, ..,aI}et M2→ {b1, ..,bJ}
G ´en ´eralisation du r2: R= I X i=1 J X j=1 ∆2ij K0 ∈ [0,1] (Maruyama, 1982)
o `u∆ij=faibj −faifbj (m ˆeme construction que∆) et K
0 = 1− I X i=1 fa2i 1− J X j=1 fb2j
Contexte : mesure du d ´es ´equilibre de liaison
Mesure du LD : quantit ´e math ´ematique qui quantifie la non-ind ´ependance probabiliste entre les
all `eles de deux loci M1et M2
•Cas biall ´elique : M1→ {a1,a2}et M2→ {b1,b2}
Coefficient de LD biall ´elique :∆ =fa1b1−fa1fb1 (=fa1b1fa2b2−fa1b2fa2b1)
Mesure der ´ef ´erence du LD : r2=∆
2
K ∈ [0,1] (Hill et Robertson, 1968) o `u K=fa1fa2fb1fb2
•G ´en ´eralisation (cas multiall ´elique) : M1→ {a1, ..,aI}et M2→ {b1, ..,bJ}
G ´en ´eralisation du r2: R= I X i=1 J X j=1 ∆2ij K0 ∈ [0,1] (Maruyama, 1982)
o `u∆ij=faibj −faifbj (m ˆeme construction que∆) et K
0 = 1− I X i=1 fa2i 1− J X j=1 fb2j
Contexte : mesure du d ´es ´equilibre de liaison
Mesure du LD : quantit ´e math ´ematique qui quantifie la non-ind ´ependance probabiliste entre les
all `eles de deux loci M1et M2
•Cas biall ´elique : M1→ {a1,a2}et M2→ {b1,b2}
Coefficient de LD biall ´elique :∆ =fa1b1−fa1fb1 (=fa1b1fa2b2−fa1b2fa2b1)
Mesure der ´ef ´erence du LD : r2=∆
2
K ∈ [0,1] (Hill et Robertson, 1968) o `u K=fa1fa2fb1fb2
•G ´en ´eralisation (cas multiall ´elique) : M1→ {a1, ..,aI}et M2→ {b1, ..,bJ}
G ´en ´eralisation du r2: R= I X i=1 J X j=1 ∆2ij K0 ∈ [0,1] (Maruyama, 1982)
o `u∆ij=faibj −faifbj (m ˆeme construction que∆) et K
0 = 1− I X i=1 fa2i 1− J X j=1 fb2j
Contexte : mod `eles LDA (cadre uni-SNP)
Les mod `eles d’association (LDA)
•Mod `eles bas ´es sur leLD populationnel (ph ´enom `ene assez local)
•Assez pr ´ecis, puissants etrobustes si correction pour la structure
(Sham et al., 2000 ; Newman et al., 2001 ; Yu et al., 2005 ; Zhang et al., 2009) Exemple : Yk= µ +Xkα + εk
Si le mod `ele est additif :αˆ=EY|g ´enotype 1/1 − EY|g ´enotype 2/2
Contexte : mod `eles LA (cadre uni-SNP)
Les mod `eles de liaison (LA)
•Mod `eles bas ´es sur leLD intra famille (ph ´enom `ene peu local)
•Robustes,peu pr ´ecis, et puissants si l’effet du QTL est au moins mod ´er ´e
(Bodmer, 1986 ; Boehnke, 1994 ; Sham et al., 2000 ; Fan et Xiong, 2002)
Exemple : Yilk= µ +Xilkηi+ εilk
Si le mod `ele est additif :ηˆi=EY|rec¸u 1 − EY|rec¸u 2
Cadre de la th `ese
Questions li ´ees aux puces `a haute densit ´e :
•Mod `eles uni-SNP (usuels) : analyse de liaison (LA) versus analyse d’association (LDA) pour la cartographie de QTL ?
•Mod `eles LDA : gagne en succ `es (Newman et al., 2001 ; Zhang et al., 2009)
•D ´efaut des mod `eles uni-SNP : peuvent mener `a une d ´etection `a longue distance
(nature du LD biall ´elique : Weiss et Clark, 2002)
•Solution : description bien plus locale du LD par les haplotypes
Cadre de la th `ese
Questions li ´ees aux puces `a haute densit ´e :
•Mod `eles uni-SNP (usuels) : analyse de liaison (LA) versus analyse d’association (LDA) pour la cartographie de QTL ?
•Mod `eles LDA : gagne en succ `es (Newman et al., 2001 ; Zhang et al., 2009)
•D ´efaut des mod `eles uni-SNP : peuvent mener `a une d ´etection `a longue distance
(nature du LD biall ´elique : Weiss et Clark, 2002)
•Solution : description bien plus locale du LD par les haplotypes
Cadre de la th `ese
Questions li ´ees `a l’utilisation des haplotypes pour l’association :
•Peu de formalisme expliquant les pr ´ecisions des mod `eles utilisant des haplotypes par rapport au LD
•Les m ´ethodes haplotypiques associ ´ees utilisent des concepts6= (IBD, IBS, Clusters..) : ,→cadre non-unifi ´e
Tous despr ´edicteurs de l’identit ´e entre les all `eles port ´es par des chromosomes (ou AIP) ?
Objectifs de la th `ese
Discriminer entre les mod `eles LDA et LA (uni-SNP) utilis ´es en routine ; analytiquement et par simulations :
•Quantifier : puissance et robustesse statistique par rapport `a des structures de donn ´ees
•But : trouver les situations o `u le LA est plus avantageux que le LDA
Discriminer entre les mod `eles LDA haplotypiques associ ´es aux “Pr ´edict. d’Ident. All ´elique” :
•Apporter des ´el ´ements de th ´eorie (cadre unifi ´e) sur la prise en compte du LD
Objectifs de la th `ese
Discriminer entre les mod `eles LDA et LA (uni-SNP) utilis ´es en routine ; analytiquement et par simulations :
•Quantifier : puissance et robustesse statistique par rapport `a des structures de donn ´ees
•But : trouver les situations o `u le LA est plus avantageux que le LDA
Discriminer entre les mod `eles LDA haplotypiques associ ´es aux “Pr ´edict. d’Ident. All ´elique” :
•Apporter des ´el ´ements de th ´eorie (cadre unifi ´e) sur la prise en compte du LD
Objectifs de la th `ese
Discriminer entre les mod `eles LDA et LA (uni-SNP) utilis ´es en routine ; analytiquement et par simulations :
•Quantifier : puissance et robustesse statistique par rapport `a des structures de donn ´ees
•But : trouver les situations o `u le LA est plus avantageux que le LDA
Discriminer entre les mod `eles LDA haplotypiques associ ´es aux “Pr ´edict. d’Ident. All ´elique” :
•Apporter des ´el ´ements de th ´eorie (cadre unifi ´e) sur la prise en compte du LD
Plan de l’expos ´e
1
Contexte et objectifs de la th `ese
2
Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des
structures g ´en ´etiques (cadre uni-SNP)
Mod `eles LDA et LA compar ´es
Structures g ´en ´etiques consid ´er ´ees
R ´esultats obtenus pour les mod `eles LDA et LA
Puissances et taux de faux positifs estim ´es par Monte-Carlo (MC)
Comparaison des r ´esultats estim ´es et analytiques
Conclusions, limites et perspectives de l’ ´etude
3
Discrimination entre mod `eles LDA utilisant des haplotypes
Mod `eles LDA et LA compar ´es (cadre uni-SNP)
Cadre :plan ´equilibr ´e pour des populations de familles de demi-fr `eres
,→fr ´equent chez les ruminants, r ´esultats analytiques possibles Notations :
•p=nb. de familles de p `eres ; m=nb. de descendants par famille ; n=mp individus
Deux mod `eles additifs d’association :
YA=XAβA+ A ; A∼ Nn(0,V)
1) Mod `ele corrig ´e : V= σ2
uA+ σ2εIn 2) Mod `ele homosc ´edastique : V= σ2εIn
YA(1) . . . YA(i) . . . YA(p) = XA(1) . . . XA(i) . . . XA(p) µ α = βA + (1)A . . . (i)A . . . (p)A
Mod `eles LDA et LA compar ´es (cadre uni-SNP)
Cadre :plan ´equilibr ´e pour des populations de familles de demi-fr `eres
,→fr ´equent chez les ruminants, r ´esultats analytiques possibles
Notations :
•p=nb. de familles de p `eres ; m=nb. de descendants par famille ; n=mp individus
Deux mod `eles additifs d’association :
YA=XAβA+ A ; A∼ Nn(0,V)
1) Mod `ele corrig ´e : V= σ2
uA+ σ2εIn 2) Mod `ele homosc ´edastique : V= σ2εIn
YA(1) . . . YA(i) . . . YA(p) = XA(1) . . . XA(i) . . . XA(p) µ α = βA + (1)A . . . (i)A . . . (p)A
Deux mod `eles additifs de liaison (ou transmission=“T”) :
YT =XTβT+ T ; T ∼ Nn(0, ˜V) (Knott et al.,1996)
1) Mod `ele h ´et ´erosc ´edastique :V˜=
˜ p
M
i=1
σ2
εiIm˜i 2) Mod `ele homosc ´edastique :V˜= σ
2 εI˜n YT(1) . . . YT(i) . . . YT(˜p) = XT(1) . . . XT(i) . . . XT(˜p) µ1 . . µ˜p δ1 . . δ˜p = βT + (1)T . . . (i)T . . . (˜Tp) o `u ;
µi=moyenne dans la famille i
δi=effet additif des all `eles au SNP test ´e dans i
XT(i): d ´ecrit l’incidence de ces ´el ´ements dans i
Contrairement `a ce qui pr ´ec `ede :p˜<p
˜
Statistiques de Fisher associ ´ees aux mod `eles
SousH0:Deux statistiques LDA selonV :
ˆ FA= (XAβˆA−X0Aβˆ0A)0V−1(XAβˆA−X0Aβˆ0A)/1 (YA−XAβˆA)0V−1(YA−XAβˆA)/n−2 ∼ H0 F(1,n−2)
Deux statistiques LA selonV :˜
ˆ FT = (XTβˆT−X0Tβˆ0T)0V˜−1(XTβˆT−X0Tβˆ0T)/˜p (YT−XTβˆT)0V˜−1(YT−XTβˆT)/˜n−2˜p ∼ H0 F(˜p, ˜n−2˜p)
Etude de la puissance et de la robustesse par simulations
Rappel : sousH1F suit une loi d ´ecentr ´ee d’un facteurˆ λ
sousH0: λ =0
•Si on connaˆıtλ: r ´esultats analytiques possibles
Statistiques de Fisher associ ´ees aux mod `eles
SousH0:Deux statistiques LDA selonV :
ˆ FA= (XAβˆA−X0Aβˆ0A)0V−1(XAβˆA−X0Aβˆ0A)/1 (YA−XAβˆA)0V−1(YA−XAβˆA)/n−2 ∼ H0 F(1,n−2)
Deux statistiques LA selonV :˜
ˆ FT = (XTβˆT−X0Tβˆ0T)0V˜−1(XTβˆT−X0Tβˆ0T)/˜p (YT−XTβˆT)0V˜−1(YT−XTβˆT)/˜n−2˜p ∼ H0 F(˜p, ˜n−2˜p)
Etude de la puissance et de la robustesse par simulations
Rappel : sousH1F suit une loi d ´ecentr ´ee d’un facteurˆ λ
sousH0: λ =0
•Si on connaˆıtλ: r ´esultats analytiques possibles
Structures g ´en ´etiques consid ´er ´ees
Simulation des ph ´enotypes selon un sch ´ema poly ´eniquemarqueur test ´e=QTL:
i)ykfamille i= µ + 1 2poly.p`ere famille i k + 1
2poly.m`erek+al´ea.m´eiosek+g QTL k + εk
Variantes du sch ´ema polyg ´enique :
ii)Variances r ´esiduelles diff ´erentes :σε216= .. 6= σ
2 εp
iii)Moyennes diff ´erentes :µfamille i
iv)Epistasie : un locus en interaction avec le marqueur test ´e
Structures g ´en ´etiques consid ´er ´ees
Simulation des ph ´enotypes selon un sch ´ema poly ´eniquemarqueur test ´e=QTL:
i)ykfamille i= µ + 1 2poly.p`ere famille i k + 1
2poly.m`erek+al´ea.m´eiosek+g QTL k + εk
Variantes du sch ´ema polyg ´enique :
ii)Variances r ´esiduelles diff ´erentes :σε216= .. 6= σ
2 εp
iii)Moyennes diff ´erentes :µfamille i
iv)Epistasie : un locus en interaction avec le marqueur test ´e
Structures g ´en ´etiques consid ´er ´ees
Simulation des ph ´enotypes selon un sch ´ema poly ´eniquemarqueur test ´e=QTL:
i)ykfamille i= µ + 1 2poly.p`ere famille i k + 1
2poly.m`erek+al´ea.m´eiosek+g QTL k + εk
Variantes du sch ´ema polyg ´enique :
ii)Variances r ´esiduelles diff ´erentes :σε216= .. 6= σ
2 εp
iii)Moyennes diff ´erentes :µfamille i
iv)Epistasie : un locus en interaction avec le marqueur test ´e
•poly.p`erefamille ik ,poly.m`erek∼ N 0,1 2 ,al´ea.m´eiosek∼ N 0,1 4 et εk∼ N (0,1)
•Sch ´emas i)`a i)bis ´etudi ´es :
-Pour un QTL expliquant entre0 et 10 % de la variance totale
-Fr ´equences all ´eliques de 0.5sous HWE au QTL
-Nb. d’individus n=600 (p=20 et m=30)
R ´esultats : puissances et taux de faux positifs estim ´es (Monte-Carlo)
i) Sch ´ema polyg ´enique de r ´ef ´erence : [Sch ´ema i) :σ2
ε1= .. = σ
2 εp= σ
2
εinter-familles] : LDA homosc ´edastique / : LA homosc ´edastique
: LDA corrig ´ee : taux de faux positifs fix ´e `a 0.01
0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0
Moyenne du pourcentage de variance expliquée par le génotype au QTL
Puissance
FIGURE1:Puissances estim ´ees pour le sch ´ema i)
10 20 30 40 50 0.0 0.1 0.2 0.3 0.4
Nombre de descendants pour chaque père
T
aux d'erreur de première espèce
FIGURE2:Taux de faux positifs pour le sch ´ema i)
R ´esultats : puissances et taux de faux positifs estim ´es (Monte-Carlo)
i)bisSNP test ´e est en LD variable avec QTL (sch ´ema polyg ´enique) :: LDA homosc ´edastique / : LA homosc ´edastique : LDA corrig ´ee
0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0
Moyenne du pourcentage de variance expliquée par le génotype au QTL
Puissance
FIGURE3:Puissances estim ´ees,r2=0.50
0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0
Moyenne du pourcentage de variance expliquée par le génotype au QTL
Puissance
FIGURE4:Puissances estim ´ees,r2=0.10
Mod `eles d’association perdent en puissance de d ´etection `a plus de 20Kb≈r2<0.5
(Sham et al., 2000) R ´esultats vraisemblables par rapport `a des situations r ´eelles (De Roos et al., 2008)
Superposition des r ´esultats analytiques et estim ´es ( sch ´ema i)
polyg ´enique )
R ´esultats analytiques :
Facteurs pour les statistiques LDA et LA (FˆAetˆFT) sous H1:
LDA : λhomo. A =
f
(n, α,fa1,fa2, σ 2 ε) λcorrig´A e=f’
(n, α,fa1,fa2, σ 2 ε, σu2) LA : λhomo.T =g
(m,pe, δi,fa1,fa2, σ 2 ε) λh´et´ero. T =g’
(m,pe, δi,fa1,fa2, σ 2 εi)Superposition des r ´esultats analytiques et estim ´es ( sch ´ema i) )
Courbes analytiques (−−) et estim ´ees (−) :
: LDA homosc ´edastique / : LDA corrig ´ee : LA homosc ´edastique
Causes de d ´eviations entre les r ´esultats analytiques et estim ´es
Causes multiples !
Principalement :hypoth `eses des mod `eles pour la d ´erivation des facteurs associ ´es
•Les fr ´equences esp ´er ´ees sous HWE sont r ´ealis ´ees : faux pour les simulations ! !
•Moyennes et variances (6=simulations)
•LA sensible aux simulations : nb. de p `eres a1a2, nb. descendants a1a1et a2a2r ´ealis ´es
Conclusions, limites et perspectives de l’ ´etude
R ´esultats coh ´erents et vraisemblables par rapport `a des situations r ´eelles
Les mod `eles LDA : plus puissants que les mod `eles LA ( ´echantillon fini, QTL `a petit effet, ´epistasie)
Les mod `eles LDA : robustes si on corrige pour la structure g ´en ´etique
Situations comportant un int ´er ˆet pour le LA (pour un QTL `a effet au moins mod ´er ´e) :
•r2populationnel faible :
-Carte g ´en ´etique de faible densit ´e
-M ´elange de populations : m ˆeme all `ele `a un SNP en association avec des all `eles diff ´erents
Les mod `eles LA sont g ´en ´eralement peu pr ´ecis
Limites de l’ ´etude :populations de familles de demi- fr `eres, mod `eles uni-SNP
Perspective :m ˆeme ´etude avec des haplotypes
Conclusions, limites et perspectives de l’ ´etude
R ´esultats coh ´erents et vraisemblables par rapport `a des situations r ´eelles
Les mod `eles LDA : plus puissants que les mod `eles LA ( ´echantillon fini, QTL `a petit effet, ´epistasie)
Les mod `eles LDA : robustes si on corrige pour la structure g ´en ´etique
Situations comportant un int ´er ˆet pour le LA (pour un QTL `a effet au moins mod ´er ´e) : •r2populationnel faible :
-Carte g ´en ´etique de faible densit ´e
-M ´elange de populations : m ˆeme all `ele `a un SNP en association avec des all `eles diff ´erents
Les mod `eles LA sont g ´en ´eralement peu pr ´ecis
Limites de l’ ´etude :populations de familles de demi- fr `eres, mod `eles uni-SNP
Perspective :m ˆeme ´etude avec des haplotypes
Conclusions, limites et perspectives de l’ ´etude
R ´esultats coh ´erents et vraisemblables par rapport `a des situations r ´eelles
Les mod `eles LDA : plus puissants que les mod `eles LA ( ´echantillon fini, QTL `a petit effet, ´epistasie)
Les mod `eles LDA : robustes si on corrige pour la structure g ´en ´etique
Situations comportant un int ´er ˆet pour le LA (pour un QTL `a effet au moins mod ´er ´e) :
•r2populationnel faible :
-Carte g ´en ´etique de faible densit ´e
-M ´elange de populations : m ˆeme all `ele `a un SNP en association avec des all `eles diff ´erents
Les mod `eles LA sont g ´en ´eralement peu pr ´ecis
Limites de l’ ´etude :populations de familles de demi- fr `eres, mod `eles uni-SNP
Perspective :m ˆeme ´etude avec des haplotypes
Plan de l’expos ´e
1
Contexte et objectifs de la th `ese
2
Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des
structures g ´en ´etiques (cadre uni-SNP)
3
Discrimination entre mod `eles LDA utilisant des haplotypes
Mod `eles LDA haplotypiques compar ´es
M ´ethode de discrimination des AIP : comparaison matricielle
R ´esultats obtenus pour la discrimination des mod `eles
Distance matricielle en fonction des coefficients de R (LD)
Proposition d’un crit `ere num ´erique : l’efficacit ´e relative
Pr ´ecision des AIP et autres r ´esultats
Conclusions, limites et perspectives de l’ ´etude
Mod `eles LDA compar ´es (cadre haplotypique)
Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)
i.e.6=motifs de LDNotations :
• I = {i1, ...,ir}un ensemble de r positions test ´ees
• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})
Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:
Y=1nµ +Zhh+Zuu+ ε
h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :
• HP,i= (sPi,h
p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq
,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq
• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier
Mod `eles LDA compar ´es (cadre haplotypique)
Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD
Notations :
• I = {i1, ...,ir}un ensemble de r positions test ´ees
• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})
Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:
Y=1nµ +Zhh+Zuu+ ε
h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :
• HP,i= (sPi,h
p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq
,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq
• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier
Mod `eles LDA compar ´es (cadre haplotypique)
Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD
Notations :
• I = {i1, ...,ir}un ensemble de r positions test ´ees
• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})
Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:
Y=1nµ +Zhh+Zuu+ ε
h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :
• HP,i= (sPi,h
p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq
,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq
• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier
Mod `eles LDA compar ´es (cadre haplotypique)
Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD
Notations :
• I = {i1, ...,ir}un ensemble de r positions test ´ees
• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})
Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:
Y=1nµ +Zhh+Zuu+ ε
h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :
• HP,i= (sPi,h
p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq
,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq
• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier
Mod `eles LDA compar ´es (cadre haplotypique)
Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD
Notations :
• I = {i1, ...,ir}un ensemble de r positions test ´ees
• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})
Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:
Y=1nµ +Zhh+Zuu+ ε
h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :
• HP,i= (sPi,h
p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq
,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq
• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier
Les AIP compar ´es :
AIP discrets (i.e. si,hP
p,hq ∈ {0,1}) :
IBShap:
Soient hp= (122112)et hq= (122122), IBShap(hp,hp) =1 et IBShap(hp,hq) =0 IBSm: cas particulier de IBShap(all `eles d’un seul SNP, utilis ´e dans les GWAS)
AIP continus (i.e. sPi,h
p,hq ∈ [0,1]) :
Principe de construction : deux haplotypes sont potentiellement en association avec le m ˆeme all `ele au
QTL lorsqu’ils se ressemblent (Meuwissen et Goddard 2001, 2002 ; Li et Jiang, 2005...)
Score de similarit ´e, Li et Jiang (2005) :
Scorep,q=Prk=−lw1(xk)1(hp(k),hq(k)) +Pr
0
k=−l0
k6=0
w2(xk)(distance de Hamming : comptage)
P(IBD), Meuwissen et Goddard (2001) :P(i=Id.all´elique|IBS) (th ´eorie de la coalescence)
Beagle, Browning et Browning (2006) : mod `ele probabiliste de classification
(th ´eorie markovienne : VLMC) Trained predictor : moindres erreurs de pr ´ediction (apprentissage par OLS)
Les AIP compar ´es :
AIP discrets (i.e. si,hP
p,hq ∈ {0,1}) :
IBShap:
Soient hp= (122112)et hq= (122122), IBShap(hp,hp) =1 et IBShap(hp,hq) =0 IBSm: cas particulier de IBShap(all `eles d’un seul SNP, utilis ´e dans les GWAS)
AIP continus (i.e. sPi,h
p,hq ∈ [0,1]) :
Principe de construction : deux haplotypes sont potentiellement en association avec le m ˆeme all `ele au
QTL lorsqu’ils se ressemblent (Meuwissen et Goddard 2001, 2002 ; Li et Jiang, 2005...)
Score de similarit ´e, Li et Jiang (2005) :
Scorep,q=Prk=−lw1(xk)1(hp(k),hq(k)) +Pr
0
k=−l0
k6=0
w2(xk)(distance de Hamming : comptage)
P(IBD), Meuwissen et Goddard (2001) :P(i=Id.all´elique|IBS) (th ´eorie de la coalescence)
Beagle, Browning et Browning (2006) : mod `ele probabiliste de classification
(th ´eorie markovienne : VLMC) Trained predictor : moindres erreurs de pr ´ediction (apprentissage par OLS)
Les AIP compar ´es :
AIP discrets (i.e. si,hP
p,hq ∈ {0,1}) : IBShap:
Soient hp= (122112)et hq= (122122), IBShap(hp,hp) =1 et IBShap(hp,hq) =0 IBSm: cas particulier de IBShap(all `eles d’un seul SNP, utilis ´e dans les GWAS)
AIP continus (i.e. sPi,h
p,hq ∈ [0,1]) :
Principe de construction : deux haplotypes sont potentiellement en association avec le m ˆeme all `ele au
QTL lorsqu’ils se ressemblent (Meuwissen et Goddard 2001, 2002 ; Li et Jiang, 2005...)
Score de similarit ´e, Li et Jiang (2005) :
Scorep,q=Prk=−lw1(xk)1(hp(k),hq(k)) +Pr
0
k=−l0
k6=0
w2(xk)(distance de Hamming : comptage)
P(IBD), Meuwissen et Goddard (2001) :P(i=Id.all´elique|IBS) (th ´eorie de la coalescence)
Beagle, Browning et Browning (2006) : mod `ele probabiliste de classification
(th ´eorie markovienne : VLMC)
M ´ethode de discrimination des AIP : comparaison matricielle (1)
D ´emarche :
Pest efficace et pr ´ecis : MP,isimilaire `a MQTLdans unvoisinage serr ´e autour du QTL et non ailleurs
,→d1(MP,i,MQTL) =
1 4n2kM
P,i−MQTLk
M ´ethode de discrimination des AIP : comparaison matricielle (1)
D ´emarche :
Pest efficace et pr ´ecis : MP,isimilaire `a MQTLdans unvoisinage serr ´e autour du QTL et non ailleurs
,→d1(MP,i,MQTL) =
1
kMP,i−MQTLk
M ´ethode de discrimination des AIP : comparaison matricielle (1)
D ´emarche :
Pest efficace et pr ´ecis : MP,isimilaire `a MQTLdans unvoisinage serr ´e autour du QTL et non ailleurs
,→d1(MP,i,MQTL) = 1 4n2kM
P,i−MQTLk
M ´ethode de discrimination des AIP : comparaison matricielle (2)
Objectifs de la d ´emarche :
Analyserth ´eoriquement la relation entre d1(MP,i,MQTL)et lescoefficients de la mesure R
Rappel de la mesure R (pour un QTL biall ´elique) :
Ri,QTL= 2 k X p=1 ∆2 p 1− K X p=1 fi,hQTL 2 p 1− 2 X l=1 fa2l =
f
(∆1, .., ∆k)R ´esultats : distance matricielle en fonction des coefficients de R (LD)
R ´esultats publi ´es :Using haplotypes for the prediction of allelic identity to fine-map QTL : characterization and properties (Jacquin et al., 2014)Expression analytique de d1(MP,i,MQTL)en fonction des coefficients de R
d1(MP,i,MQTL) = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp ∆2p+B.∆p+C # = ξP(∆1, .., ∆k)
B,C : som. et prod. de fr ´eq. marginales
•Comportement complexe pour un AIP continu et `a valeurs dans [0,1]
•PourP =IBShap: sPi,hp,hq=0 et s
P i,hp,hp=1 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+B.∆p+C #
En esp ´erance :ξIBShap(∆
1, .., ∆k)diminue quand R augmente, i.e.i→QTL
R ´esultats : distance matricielle en fonction des coefficients de R (LD)
R ´esultats publi ´es :Using haplotypes for the prediction of allelic identity to fine-map QTL : characterization and properties (Jacquin et al., 2014)Expression analytique de d1(MP,i,MQTL)en fonction des coefficients de R
d1(MP,i,MQTL) = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp ∆2p+B.∆p+C # = ξP(∆1, .., ∆k)
B,C : som. et prod. de fr ´eq. marginales
•Comportement complexe pour un AIP continu et `a valeurs dans [0,1]
•PourP =IBShap: sPi,hp,hq=0 et s
P i,hp,hp=1 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+B.∆p+C #
En esp ´erance :ξIBShap(∆
1, .., ∆k)diminue quand R augmente, i.e.i→QTL
R ´esultats : distance matricielle en fonction des coefficients de R (LD)
R ´esultats publi ´es :Using haplotypes for the prediction of allelic identity to fine-map QTL : characterization and properties (Jacquin et al., 2014)Expression analytique de d1(MP,i,MQTL)en fonction des coefficients de R
d1(MP,i,MQTL) = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp ∆2p+B.∆p+C # = ξP(∆1, .., ∆k)
B,C : som. et prod. de fr ´eq. marginales
•Comportement complexe pour un AIP continu et `a valeurs dans [0,1]
•PourP =IBShap: sPi,hp,hq=0 et s
P i,hp,hp=1 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+B.∆p+C #
En esp ´erance :ξIBShap(∆
1, .., ∆k)diminue quand R augmente,
Pour aller plus loin, k
=
2 haplotypes :
• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+cObservations particuli `eres :
• La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :
−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]
ξPd ´ecroˆıtra d’autant moins vite que sP
i,h1,h2sera grand (met en d ´efaut le principe de construction)
• ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal
∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2
Lorsque|∆1|est maximal :
ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap
Pour aller plus loin, k
=
2 haplotypes :
• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+cObservations particuli `eres :
• La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :
−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]
ξPd ´ecroˆıtra d’autant moins vite que sP
i,h1,h2sera grand (met en d ´efaut le principe de construction)
• ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal
∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2
Lorsque|∆1|est maximal :
ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap
Pour aller plus loin, k
=
2 haplotypes :
• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+cObservations particuli `eres :
• La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :
−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]
ξPd ´ecroˆıtra d’autant moins vite que sP
i,h1,h2sera grand (met en d ´efaut le principe de construction)
• ∀P → [0,1],∃une borne inf. pour la distance
lorsque|∆1|est maximal ∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2
Lorsque|∆1|est maximal :
ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap
Pour aller plus loin, k
=
2 haplotypes :
• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+cObservations particuli `eres :
• La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :
−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]
ξPd ´ecroˆıtra d’autant moins vite que sP
i,h1,h2sera grand (met en d ´efaut le principe de construction)
• ∀P → [0,1],∃une borne inf. pour la distance
lorsque|∆1|est maximal ∆1∈ h −1 4, 1 4 i : ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2
Lorsque|∆1|est maximal :
ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap
Relation entre d
1(
M
P,i,
M
QTL)
et R
[chrom. humains : HapMap]
FIGURE6:Distributions des distances matricielles sur 14973 fen ˆetres pour des loci biall ´eliques cach ´es
Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)
Crit `ere de comparaison usuel en cartographie de QTL :
Pr ´ecision (crit `ere usuel) :
RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position
Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :
Soient θQTL: position d’un QTL et θP=argmin
i∈I
{d1(MP,i,MQTL) }
P1 est plus efficace que P2 si
|θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)
RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ
QTL|
sous-crit `ere (a)
ρSpearman
(RMSEr .e.,RMSEm.a.) ≥0,9Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)
Crit `ere de comparaison usuel en cartographie de QTL : Pr ´ecision (crit `ere usuel) :
RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position
Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :
Soient θQTL: position d’un QTL et θP=argmin i∈I
{d1(MP,i,MQTL) }
P1 est plus efficace que P2 si
|θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)
RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ
QTL|
sous-crit `ere (a)
ρSpearman
(RMSEr .e.,RMSEm.a.) ≥0,9Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)
Crit `ere de comparaison usuel en cartographie de QTL : Pr ´ecision (crit `ere usuel) :
RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position
Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :
Soient θQTL: position d’un QTL et θP=argmin i∈I
{d1(MP,i,MQTL) }
P1 est plus efficace que P2 si
|θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)
RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ
QTL|
sous-crit `ere (a)
ρSpearman
(RMSEr .e.,RMSEm.a.) ≥0,9Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)
Crit `ere de comparaison usuel en cartographie de QTL : Pr ´ecision (crit `ere usuel) :
RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position
Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :
Soient θQTL: position d’un QTL et θP=argmin i∈I
{d1(MP,i,MQTL) }
P1 est plus efficace que P2 si
|θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)
RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ QTL|
sous-crit `ere (a)
ρ
Spearman(RMSEr .e.,RMSEm.a.) ≥0,9Autres r ´esultats : pr ´ecision des AIP
Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :
•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)
•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)
•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)
Autres r ´esultats : pr ´ecision des AIP
Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :
•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)
•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)
•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)
Autres r ´esultats : pr ´ecision des AIP
Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :
•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)
•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)
•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)
Autres r ´esultats : pr ´ecision des AIP
Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :
•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)
•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)
•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)
Conclusions, limites et perspectives de l’ ´etude
D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique
Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision
(1) et (2) : identification de IBShapcomme AIP de choix
IBShap:
• Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable
• Limites : marquage `a haute densit ´e (≥50K), donn ´ees correctement phas ´ees
,→Consid ´erer d’autres AIP
Conclusions, limites et perspectives de l’ ´etude
D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique
Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision
(1) et (2) : identification de IBShapcomme AIP de choix
IBShap:
• Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable
• Limites : marquage `a haute densit ´e (≥50K), donn ´ees correctement phas ´ees
,→Consid ´erer d’autres AIP
Conclusions, limites et perspectives de l’ ´etude
D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique
Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision
(1) et (2) : identification de IBShapcomme AIP de choix
IBShap:
• Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable
• Limites : marquage `a haute densit ´e (≥50K), donn ´ees correctement phas ´ees
,→Consid ´erer d’autres AIP
Conclusions, limites et perspectives de l’ ´etude
D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique
Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision
(1) et (2) : identification de IBShapcomme AIP de choix
IBShap:
• Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable
• Limites : marquage `a haute densit ´e (≥50K), donn ´ees correctement phas ´ees
,→Consid ´erer d’autres AIP
Conclusions, limites et perspectives de l’ ´etude
D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique
Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision
(1) et (2) : identification de IBShapcomme AIP de choix
IBShap:
• Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable
• Limites : marquage `a haute densit ´e (≥50K), donn ´ees correctement phas ´ees
,→Consid ´erer d’autres AIP
Plan de l’expos ´e
1
Contexte et objectifs de la th `ese
2
Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des
structures g ´en ´etiques (cadre uni-SNP)
3
Discrimination entre mod `eles LDA utilisant des haplotypes
Conclusions g ´en ´erales de la th `ese
Avantages des approches haplotypiques par rapport `a l’uni-SNP :
•Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecis •Rendre compte d’un multiall ´elisme quelconque
•IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :
•Reconstruction des phases
•Param ´etrage (taille de fen ˆetre) et temps de calcul associ ´es
Int ´er ˆets du LA en cartographie : peu de LD ou validation (cas sp ´ecifiques)
LDA : il faut savoir prendre en compte la structure Perspectives :
•Puissances et robustesses : mod `eles LDA haplotypiques
•Doit-on comparer d’autres AIP (Fastphase, ARG, l’analyse cladistique..) ? •Comprendre les ph ´enom `enes biologiques (interactions..) pour le d ´eveloppement
Conclusions g ´en ´erales de la th `ese
Avantages des approches haplotypiques par rapport `a l’uni-SNP :
•Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecis
•Rendre compte d’un multiall ´elisme quelconque •IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :
•Reconstruction des phases
•Param ´etrage (taille de fen ˆetre) et temps de calcul associ ´es
Int ´er ˆets du LA en cartographie : peu de LD ou validation (cas sp ´ecifiques)
LDA : il faut savoir prendre en compte la structure Perspectives :
•Puissances et robustesses : mod `eles LDA haplotypiques
•Doit-on comparer d’autres AIP (Fastphase, ARG, l’analyse cladistique..) ? •Comprendre les ph ´enom `enes biologiques (interactions..) pour le d ´eveloppement
Conclusions g ´en ´erales de la th `ese
Avantages des approches haplotypiques par rapport `a l’uni-SNP :
•Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecis
•Rendre compte d’un multiall ´elisme quelconque •IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :
•Reconstruction des phases
•Param ´etrage (taille de fen ˆetre) et temps de calcul associ ´es
Int ´er ˆets du LA en cartographie : peu de LD ou validation (cas sp ´ecifiques)
LDA : il faut savoir prendre en compte la structure Perspectives :
•Puissances et robustesses : mod `eles LDA haplotypiques
•Doit-on comparer d’autres AIP (Fastphase, ARG, l’analyse cladistique..) ? •Comprendre les ph ´enom `enes biologiques (interactions..) pour le d ´eveloppement
Remerciements
Financeurs : ANR et INRA
Directeurs de th `ese : Jean-Michel Elsen et H ´el `ene Gilbert
Jury : Didier Boichard, Maria Martinez, Miguel P ´erez-Enciso,
Anne-Louise Leutenegger et mes directeurs
Membres de l’unit ´e INRA-GENPHYSE
GENOPOLE, DGA et CTIG
Lien entre expos ´e et annexes
1 Contexte et objectifs de la th `ese
La cartographie de QTL
Mesure du d ´es ´equilibre de liaison (LD)
Les mod `eles d’association (LDA) et mod `eles de liaison (LA) Cadre et objectifs
2 Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des structures
g ´en ´etiques (cadre uni-SNP)
Mod `eles LDA et LA compar ´es Structures g ´en ´etiques consid ´er ´ees
R ´esultats obtenus pour les mod `eles LDA et LA
Puissances et taux de faux positifs estim ´es par Monte-Carlo (MC)
Comparaison des r ´esultats estim ´es et analytiques Conclusions, limites et perspectives de l’ ´etude
3 Discrimination entre mod `eles LDA utilisant des haplotypes
Mod `eles LDA haplotypiques compar ´es
M ´ethode de discrimination des AIP : comparaison matricielle R ´esultats obtenus pour la discrimination des mod `eles
Distance matricielle en fonction des coefficients de R (LD)
Proposition d’un crit `ere num ´erique : l’efficacit ´e relative
Pr ´ecision des AIP et autres r ´esultats
Conclusions, limites et perspectives de l’ ´etude
Annexes (1)
Cas d’ ´ecole : Soient : ( H1: Y∼ Nn(Xβ, σ2In) H0: Y∼ Nn(X0β0, σ2In)Sous H1le num ´erateur deF :ˆ k ˆY− ˆY0k22=Y 0 PE∩E⊥ 0 Y ∼ H0 σ2χ2(
q, λ) [th ´eo. sur les formes quadra.]
o `uλ = (Xβ)0P
E∩E⊥ 0 (Xβ)
σ2 (facteur de d ´ecentrage) Or, d’apr `es les th ´eor `emes sur les formes quadratiques : PE∩E⊥
0 =PE −PE0 EY0PE∩E⊥ 0 Y = (Xβ)0PE∩E⊥ 0 ( Xβ) + σ2tr(PE∩E⊥ 0 ) = σ2λ + tr(PE∩E⊥ 0 )
On voit donc que : EY0PE∩E⊥
0 Y = EkˆY
− ˆY0k22] 6= λ
Alg ´ebriquement : pour le sch ´emas iii) [moyennes diff ´erentes] on aEY0PE∩E⊥ 0 Y
> λhomo. A lorsque Y ∼ Nn(Xiiiβiii,Viii)au lieu de H1
Annexes (2)
ii) Sch ´ema avec des variances r ´esiduelles diff ´erentes inter familles :
: analyse d’association homosc ´edastique / : analyse d’association corrig ´ee
: analyse de liaison h ´et ´erosc ´edastique / : taux d’erreur de premi `ere esp `ece fix ´e `a 0.01
0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0
Moyenne du pourcentage de variance expliquée par le génotype au QTL
Puissance
FIGURE7:Puissances estim ´ees pour le sch ´ema ii)
10 20 30 40 50 0.0 0.1 0.2 0.3 0.4
Nombre de descendants pour chaque père
T
aux d'erreur de première espèce
FIGURE8:Taux de faux positifs pour le sch ´ema ii)
•Tr `es l ´eg `ere inflation du taux d’erreur pour l’association h ´et ´erosc ´edastique :λ 6=0⇒optimisation (EM, REML...) associ ´ee `a l’estimation des(σ2
Annexes (3)
Soit la distance entre MP,iet MQTL(entrywise 1-norm) :
d1(MP,i,MQTL) = 1 4n2kM P,i− MQTLk1= 1 4n2 2n X c1=1 2n X c2=1 |sPi,c1,c2−u QTL c1,c2| = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp ∆2p+ Ψ P pq(∆l6=p,q)∆p+ ΦPpq(∆l6=p,q) # =ξP(∆1, .., ∆k) ΨPpq, Φ P
pq: som. et prod. de fr ´eq. marginales
•Pour un AIP continu : grand ensemble de valeurs pour les (sPi,h
p,hq)(p,q)∈{1,..k }2
•PourP =IBShap: sPi,hp,hp=1 et s
P i,hp,hq=0 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+ Ψ IBShap pq ∆p+ Φ IBShap pq #
En esp ´erance :ξIBShap(∆
Annexes (4) : relation locale entre
ξ
P(∆
1, .., ∆
k)
et R
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Trained predictorLD between haplotypes and target alleles
Matr ix distance f or TP at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Score predictor
LD between haplotypes and target alleles
Matr ix distance f or Score at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Beagle predictor
LD between haplotypes and target alleles
Matr ix distance f or Beagle at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 IBS_m predictor
LD between haplotypes and target alleles
Matr ix distance f or IBS_m at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 IBS_hap predictor
LD between haplotypes and target alleles
Matr ix distance f or IBS_hap at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 P(IBD) predictor
LD between haplotypes and target alleles
Matr
ix distance f
or P(IBD) at target SNP
FIGURE9:Distributions des distances matricielles sur 14973 fen ˆetres (14973 loci cach ´es≈QTL cach ´es)
Annexes (5)
0.05
0.15
0.25
0.35
R profiles between a tested position and a QTL
Tested positions E x p e c te d v a lu e o f R i,QTL 1 38 76 QTL R profile for HCB R profile for FLW QTL position 0.02 0.05 0.08
D2 profiles between a tested position and a QTL
Tested positions E x p e c te d v a lu e o f D 2i,QTL 1 38 76 QTL D2 profile for HCB D2 profile for FLW QTL position
Annexes (6)
R ´esultats importants pour k
=
2 haplotypes :
• P → [0,1] =⇒ ξP(∆1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+ Ψ P∆ 1+ ΦP
• P =IBShap=⇒ ξIBShap(∆1) = −8∆21+ Ψ IBShap∆
1+ ΦIBShap
Observations particuli `eres :
• La plus forte vitesse de d ´ecroissance : −8∆2 1 IBShap car −8≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i h −4sPi,h 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2
1d ´ecroˆıtra d’autant moins vite : h1et h2seront similaires
(cette propri ´et ´e met en d ´efaut..) • ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal :
ξP−1 4 = ξP1 4 ≥1 2s P i,h1,h2 o `u∆1∈ h −1 4, 1 4 i
• Lorsque|∆1|est maximal :
ξP−1 4 = ξP1 4 =0⇐⇒ P =IBShap
Annexes (6 bis) : conditions et limites de validit ´e pour l’IBS
hapValable pour toutes les m ´ethodes haplotypiques : donn ´ees correctement phas ´ees
(bien que l’IBShapest potentiellement plus sensible)
Densit ´e de marquage potentiellement tr `es critique :≤20K (typages informatifs)
Comment arrive-t-on `a 20K ? :
Mauvaise efficacit ´e pour l0IBShap: R=0.08 avec des haplotypes, de 6 SNP, de taille 0.75cM
soit 0.15 cM en moyenne entre 2 SNP (≈150Kb)
Extrapolation de la densit ´e de marquage critique =Taille du g ´enome chez le porc
150Kb =
3.106Kb 150Kb =20Kb
Annexes (7) :
ξ
P(∆
1, .., ∆
k)
inter position test ´ee et QTL (exemple)
Raugmente lorsque i→QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 Trained Predictor Tested_position dist_M_TP_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 Score predictor Tested_position dist_M_Score_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 IBS_hap predictor Tested_position dist_M_IBS_hap_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 P(IBD) predictor Tested_position dist_M_P_IBD_i_M_QTL QTL 0 10 20 30 40 0.2 0.3 0.4 0.5 0.6 Beagle predictor Tested_position dist_M_Beagle_i_M_QTL QTL 0 10 20 30 40 0.1 0.3 0.5 IBS_m predictor Tested_position dist_M_IBS_m_i_M_QTL QTLFIGURE11: Distributions de distances issues de 200 genedropping235 chromosomes SSC18 (FLW) pourIcontenant un QTL[Ri∗,QTL=0.18] : courbes moyennes et quantiles empiriques `a 2.5% et 97.5%
Annexes (8) : similitude des distances pour P
(
IBD
)
et IBS
hapP(IBD) :P(2 chromosomes ont le m ˆeme all `ele|´etats IBS des all `eles des haplotypes)
(cf. Ytournel et al., 2007 :distribution en U)
FIGURE12: Distributions des(sPi,c
1,c2)1≤c1,c2≤2npour IBShapet P(IBD)au QTL
un genedropping des
Annexes (9) : exemple de distributions des g ´enotypes inter-simulations
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Distributions des homozygotes, intra simulation, associées à un pourcentage de variance expliquée par le génotype au QTL de 2% pour p=20 et m=15 (i.e. n=300)
Numéro de simulation
Nombre d'homozygotes a1a1 et a2a2
0 20 40 60 80 100 Nb. a1a1 Nb. a2a2 75
Moyenne sur 30 simulations Moyenne sur 30 simulations
Annexes (10) : mod `eles en grande dimension (i.e.
k
>>
n)
Soit le mod `ele g ´en ´eral :
Y=Xβ + ε
βde taillek (nb. de variables, nb. de SNP par exemple) Y de taillen (nb. d’individus)
Soits le nb. de variables ayant r ´eellement un effet ; s<k (Sparsit ´e : nb. fini de QTLs par exemple)
L’estimation du support deβ(i.e. les s coefficients) est quasi-impossible si :
Crit `ere de UHD : C∗= s
nln k s >1 2 (Verzelen, 2012) Exemple : k=50000 (nb. SNP), s=1000 (nb.QTL) et n=3000 on a C∗=1.3>0.5
Ridge, Lasso, Bay ´esien (Bayes A, B..) etc
Ridge : Yˆ=Xβˆλ o `u βˆλ=argmin β∈Rk {kY−Xβk2 2+ λkβk 2 2} p ´enalit ´e` 2 Lasso : Yˆ=Xβˆλ o `u βˆλ=argmin β∈Rk {kY−Xβk2 2+ λkβk1} p ´enalit ´e`1 Bayes A : Y= ˜Xβ + ε = µ +˜ Xβ + ε avecβ ∼ N (0,Ikσβ2) o `uσ2β∼ χ−2(v,S)Annexes (10 bis) : mod `eles en grande dimension (i.e.
k
>>
n)
Comparaison entre approche positionnelle et Bayes c
π
•Des analyses sur donn ´ees r ´eelles :cor.test (uni-SNP mixte, Bayes cπ)≥0,9(Teyss `edre, 2011)
•Etude par simulation de cartographie avec Bayes cπ(Van der Berg, 2013) :
Il faut fixer une valeur grande pourπ(proportion de SNP nuls) afin de bien d ´etecter les QTL
On d ´etecte mieux les QTL a fort effet pour des caract `eres tr `es h ´eritables
(fort taux de faux positifs sinon)
Annexes (11) : Structures g ´en ´etiques consid ´er ´ees
Simulation des ph ´enotypes :variantes du sch ´ema polyg ´enique (o `u le marqueur test ´e=QTL)i)yki = 1 2p fa.,i+1 2p mo. k + φk+gk+ εk
sch ´ema polyg ´enique de r ´ef ´erence ii)yki = 1 2p fa.,i+1 2p mo. k + φk+gk+ εi,stand.k
variances r ´esiduelles diff ´erentes
iii)yki = µi+ 1 2p fa.,i+1 2p mo. k + φk+gk+ εk
moyennes diff ´erentes
iv)yki = 1 2p fa.,i+1 2p mo. k + φk+ginteract.k +εk
a1en interaction avec b1en un locus
,→ginteract.k = αou 2αsi le g ´enotype=a1a2ou a1a1et b1est pr ´esent
i)bisyi k= 1 2p fa.,i+1 2p mo. k + φk+gk+ εk
marqueur test ´e6=QTL, en diff ´erent niveaux de LD
•pi,pkmo.∼ N 0,1 2 , φk∼ N 0,1 4 h
relation classique : var(φk) = 1 2var(p i)i • εk∼ N (0,1), µi∼ N (0,2) et εik∼ N (0, σ 2 εi)o `uσ 2 εi ∼Inv -χ 2( 1)
Annexes (12) : Distance matricielle pour k=2 avec LD maximal
ξIBShap(∆ 1) = −8∆12+4[( ˜α1− α1) + (α2− ˜α2)] ∆1− ( ˜α1− α1)2− (α2− ˜α2)2 + (α1+ α2)2+ ( ˜α2+ ˜α1)2 o `u ( ˜α1− α1) =fi,h1(fa2−fa1) et (α2− ˜α2) =fi,h2(fa1−fa2) Or (page 21),∆1≤min(fa1fi,h2,fa2fi,h1) =
1
4si fa1=fi,h1= 1 2
∆1≤ −min(fa1fi,h1,fa2fi,h2) = −
1 4si fa1=fi,h1= 1 2 Pour∆1= 1 4ou− 1 4,ξ
IBShapest donc de la forme :
ξIBShap(∆
1) = −8∆12+ (α1+ α2)2+ ( ˜α2+ ˜α1)2
Annexes (13) : niveaux d’association entre haplotypes et all `eles
Cas : k≥3fi,h1=fi,h2=fi,h3=
1
3et fa1=fa2= 1
2 (3 haplotypes et 1 QTL biall ´elique)
Supposons que h1est totalement associ ´e `a a1au QTL
La fr ´equence des a1restant est donc 1 2− 1 3= 1 6<< 1 3