• Aucun résultat trouvé

Open Archive Toulouse Archive Ouverte (OATAO) OATAO is an open access repository that collects the work of Toulouse researchers and makes it freely available over the web where possible.

N/A
N/A
Protected

Academic year: 2021

Partager "Open Archive Toulouse Archive Ouverte (OATAO) OATAO is an open access repository that collects the work of Toulouse researchers and makes it freely available over the web where possible."

Copied!
90
0
0

Texte intégral

(1)

Any correspondence concerning this service should be sent to the repository administrator:

staff-oatao@inp-toulouse.fr

This is an author-deposited version published in:

http://oatao.univ-toulouse.fr/

Eprints ID: 12138

To cite this version:

Jacquin, Laval Yannis Julien Optimisation des méthodes statistiques d'analyse de

la variabilité des caractères à l'aide d'informations génomiques. (2014) .

(Unpublished)

O

pen

A

rchive

T

oulouse

A

rchive

O

uverte (

OATAO

)

OATAO is an open access repository that collects the work of Toulouse researchers and

makes it freely available over the web where possible.

(2)

Optimisation des m ´ethodes statistiques d’analyse de la

variabilit ´e des caract `eres `a l’aide d’informations

g ´enomiques

Laval JACQUIN

(3)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA)

par rapport `a des structures g ´en ´etiques (cadre uni-SNP)

3

Discrimination entre mod `eles LDA utilisant des haplotypes

(4)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

La cartographie de QTL

Mesure du d ´es ´equilibre de liaison (LD)

Les mod `eles d’association (LDA) et mod `eles de liaison (LA)

Cadre et objectifs

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

3

Discrimination entre mod `eles LDA utilisant des haplotypes

(5)
(6)

Contexte : mesure du d ´es ´equilibre de liaison

Mesure du LD : quantit ´e math ´ematique qui quantifie la non-ind ´ependance probabiliste entre les

all `eles de deux loci M1et M2

•Cas biall ´elique : M1→ {a1,a2}et M2→ {b1,b2}

Coefficient de LD biall ´elique :∆ =fa1b1−fa1fb1 (=fa1b1fa2b2−fa1b2fa2b1)

Mesure der ´ef ´erence du LD : r2=∆

2

K ∈ [0,1] (Hill et Robertson, 1968) o `u K=fa1fa2fb1fb2

•G ´en ´eralisation (cas multiall ´elique) : M1→ {a1, ..,aI}et M2→ {b1, ..,bJ}

G ´en ´eralisation du r2: R= I X i=1 J X j=1 ∆2ij K0 ∈ [0,1] (Maruyama, 1982)

o `u∆ij=faibj −faifbj (m ˆeme construction que∆) et K

0 =  1− I X i=1 fa2i  1− J X j=1 fb2j 

(7)

Contexte : mesure du d ´es ´equilibre de liaison

Mesure du LD : quantit ´e math ´ematique qui quantifie la non-ind ´ependance probabiliste entre les

all `eles de deux loci M1et M2

•Cas biall ´elique : M1→ {a1,a2}et M2→ {b1,b2}

Coefficient de LD biall ´elique :∆ =fa1b1−fa1fb1 (=fa1b1fa2b2−fa1b2fa2b1)

Mesure der ´ef ´erence du LD : r2=∆

2

K ∈ [0,1] (Hill et Robertson, 1968) o `u K=fa1fa2fb1fb2

•G ´en ´eralisation (cas multiall ´elique) : M1→ {a1, ..,aI}et M2→ {b1, ..,bJ}

G ´en ´eralisation du r2: R= I X i=1 J X j=1 ∆2ij K0 ∈ [0,1] (Maruyama, 1982)

o `u∆ij=faibj −faifbj (m ˆeme construction que∆) et K

0 =  1− I X i=1 fa2i  1− J X j=1 fb2j 

(8)

Contexte : mesure du d ´es ´equilibre de liaison

Mesure du LD : quantit ´e math ´ematique qui quantifie la non-ind ´ependance probabiliste entre les

all `eles de deux loci M1et M2

•Cas biall ´elique : M1→ {a1,a2}et M2→ {b1,b2}

Coefficient de LD biall ´elique :∆ =fa1b1−fa1fb1 (=fa1b1fa2b2−fa1b2fa2b1)

Mesure der ´ef ´erence du LD : r2=∆

2

K ∈ [0,1] (Hill et Robertson, 1968) o `u K=fa1fa2fb1fb2

•G ´en ´eralisation (cas multiall ´elique) : M1→ {a1, ..,aI}et M2→ {b1, ..,bJ}

G ´en ´eralisation du r2: R= I X i=1 J X j=1 ∆2ij K0 ∈ [0,1] (Maruyama, 1982)

o `u∆ij=faibj −faifbj (m ˆeme construction que∆) et K

0 =  1− I X i=1 fa2i  1− J X j=1 fb2j 

(9)

Contexte : mod `eles LDA (cadre uni-SNP)

Les mod `eles d’association (LDA)

•Mod `eles bas ´es sur leLD populationnel (ph ´enom `ene assez local)

•Assez pr ´ecis, puissants etrobustes si correction pour la structure

(Sham et al., 2000 ; Newman et al., 2001 ; Yu et al., 2005 ; Zhang et al., 2009) Exemple : Yk= µ +Xkα + εk

Si le mod `ele est additif :αˆ=EY|g ´enotype 1/1 − EY|g ´enotype 2/2

(10)

Contexte : mod `eles LA (cadre uni-SNP)

Les mod `eles de liaison (LA)

•Mod `eles bas ´es sur leLD intra famille (ph ´enom `ene peu local)

•Robustes,peu pr ´ecis, et puissants si l’effet du QTL est au moins mod ´er ´e

(Bodmer, 1986 ; Boehnke, 1994 ; Sham et al., 2000 ; Fan et Xiong, 2002)

Exemple : Yilk= µ +Xilkηi+ εilk

Si le mod `ele est additif :ηˆi=EY|rec¸u 1 − EY|rec¸u 2

(11)

Cadre de la th `ese

Questions li ´ees aux puces `a haute densit ´e :

Mod `eles uni-SNP (usuels) : analyse de liaison (LA) versus analyse d’association (LDA) pour la cartographie de QTL ?

Mod `eles LDA : gagne en succ `es (Newman et al., 2001 ; Zhang et al., 2009)

D ´efaut des mod `eles uni-SNP : peuvent mener `a une d ´etection `a longue distance

(nature du LD biall ´elique : Weiss et Clark, 2002)

Solution : description bien plus locale du LD par les haplotypes

(12)

Cadre de la th `ese

Questions li ´ees aux puces `a haute densit ´e :

Mod `eles uni-SNP (usuels) : analyse de liaison (LA) versus analyse d’association (LDA) pour la cartographie de QTL ?

Mod `eles LDA : gagne en succ `es (Newman et al., 2001 ; Zhang et al., 2009)

D ´efaut des mod `eles uni-SNP : peuvent mener `a une d ´etection `a longue distance

(nature du LD biall ´elique : Weiss et Clark, 2002)

Solution : description bien plus locale du LD par les haplotypes

(13)

Cadre de la th `ese

Questions li ´ees `a l’utilisation des haplotypes pour l’association :

Peu de formalisme expliquant les pr ´ecisions des mod `eles utilisant des haplotypes par rapport au LD

Les m ´ethodes haplotypiques associ ´ees utilisent des concepts6= (IBD, IBS, Clusters..) : ,→cadre non-unifi ´e

Tous despr ´edicteurs de l’identit ´e entre les all `eles port ´es par des chromosomes (ou AIP) ?

(14)

Objectifs de la th `ese

Discriminer entre les mod `eles LDA et LA (uni-SNP) utilis ´es en routine ; analytiquement et par simulations :

Quantifier : puissance et robustesse statistique par rapport `a des structures de donn ´ees

But : trouver les situations o `u le LA est plus avantageux que le LDA

Discriminer entre les mod `eles LDA haplotypiques associ ´es aux “Pr ´edict. d’Ident. All ´elique” :

Apporter des ´el ´ements de th ´eorie (cadre unifi ´e) sur la prise en compte du LD

(15)

Objectifs de la th `ese

Discriminer entre les mod `eles LDA et LA (uni-SNP) utilis ´es en routine ; analytiquement et par simulations :

Quantifier : puissance et robustesse statistique par rapport `a des structures de donn ´ees

But : trouver les situations o `u le LA est plus avantageux que le LDA

Discriminer entre les mod `eles LDA haplotypiques associ ´es aux “Pr ´edict. d’Ident. All ´elique” :

Apporter des ´el ´ements de th ´eorie (cadre unifi ´e) sur la prise en compte du LD

(16)

Objectifs de la th `ese

Discriminer entre les mod `eles LDA et LA (uni-SNP) utilis ´es en routine ; analytiquement et par simulations :

Quantifier : puissance et robustesse statistique par rapport `a des structures de donn ´ees

But : trouver les situations o `u le LA est plus avantageux que le LDA

Discriminer entre les mod `eles LDA haplotypiques associ ´es aux “Pr ´edict. d’Ident. All ´elique” :

Apporter des ´el ´ements de th ´eorie (cadre unifi ´e) sur la prise en compte du LD

(17)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

Mod `eles LDA et LA compar ´es

Structures g ´en ´etiques consid ´er ´ees

R ´esultats obtenus pour les mod `eles LDA et LA

Puissances et taux de faux positifs estim ´es par Monte-Carlo (MC)

Comparaison des r ´esultats estim ´es et analytiques

Conclusions, limites et perspectives de l’ ´etude

3

Discrimination entre mod `eles LDA utilisant des haplotypes

(18)

Mod `eles LDA et LA compar ´es (cadre uni-SNP)

Cadre :plan ´equilibr ´e pour des populations de familles de demi-fr `eres

,→fr ´equent chez les ruminants, r ´esultats analytiques possibles Notations :

p=nb. de familles de p `eres ; m=nb. de descendants par famille ; n=mp individus

Deux mod `eles additifs d’association :

YA=XAβA+ A ; A∼ Nn(0,V)

1) Mod `ele corrig ´e : V= σ2

uA+ σ2εIn 2) Mod `ele homosc ´edastique : V= σ2εIn

          YA(1) . . . YA(i) . . . YA(p)           =           XA(1) . . . XA(i) . . . XA(p)           µ α  = βA +           (1)A . . . (i)A . . . (p)A          

(19)

Mod `eles LDA et LA compar ´es (cadre uni-SNP)

Cadre :plan ´equilibr ´e pour des populations de familles de demi-fr `eres

,→fr ´equent chez les ruminants, r ´esultats analytiques possibles

Notations :

p=nb. de familles de p `eres ; m=nb. de descendants par famille ; n=mp individus

Deux mod `eles additifs d’association :

YA=XAβA+ A ; A∼ Nn(0,V)

1) Mod `ele corrig ´e : V= σ2

uA+ σ2εIn 2) Mod `ele homosc ´edastique : V= σ2εIn

          YA(1) . . . YA(i) . . . YA(p)           =           XA(1) . . . XA(i) . . . XA(p)           µ α  = βA +           (1)A . . . (i)A . . . (p)A          

(20)

Deux mod `eles additifs de liaison (ou transmission=“T”) :

YT =XTβT+ T ; T ∼ Nn(0, ˜V) (Knott et al.,1996)

1) Mod `ele h ´et ´erosc ´edastique :V˜=

˜ p

M

i=1

σ2

εiIm˜i 2) Mod `ele homosc ´edastique :V˜= σ

2 εI˜n           YT(1) . . . YT(i) . . . YT(˜p)           =           XT(1) . . . XT(i) . . . XT(˜p)                  µ1 . . µ˜p δ1 . . δ˜p        = βT +           (1)T . . . (i)T . . . (˜Tp)           o `u ;

µi=moyenne dans la famille i

δi=effet additif des all `eles au SNP test ´e dans i

XT(i): d ´ecrit l’incidence de ces ´el ´ements dans i

Contrairement `a ce qui pr ´ec `ede :p˜<p

˜

(21)

Statistiques de Fisher associ ´ees aux mod `eles

SousH0:

Deux statistiques LDA selonV :

ˆ FA= (XAβˆA−X0Aβˆ0A)0V−1(XAβˆA−X0Aβˆ0A)/1 (YA−XAβˆA)0V−1(YA−XAβˆA)/n−2 ∼ H0 F(1,n2)

Deux statistiques LA selonV :˜

ˆ FT = (XTβˆT−X0Tβˆ0T)0V˜−1(XTβˆT−X0Tβˆ0T)/˜p (YT−XTβˆT)0V˜−1(YT−XTβˆT)/˜n−2˜p ∼ H0 F(˜p, ˜n2˜p)

Etude de la puissance et de la robustesse par simulations

Rappel : sousH1F suit une loi d ´ecentr ´ee d’un facteurˆ λ



sousH0: λ =0



•Si on connaˆıtλ: r ´esultats analytiques possibles

(22)

Statistiques de Fisher associ ´ees aux mod `eles

SousH0:

Deux statistiques LDA selonV :

ˆ FA= (XAβˆA−X0Aβˆ0A)0V−1(XAβˆA−X0Aβˆ0A)/1 (YA−XAβˆA)0V−1(YA−XAβˆA)/n−2 ∼ H0 F(1,n2)

Deux statistiques LA selonV :˜

ˆ FT = (XTβˆT−X0Tβˆ0T)0V˜−1(XTβˆT−X0Tβˆ0T)/˜p (YT−XTβˆT)0V˜−1(YT−XTβˆT)/˜n−2˜p ∼ H0 F(˜p, ˜n2˜p)

Etude de la puissance et de la robustesse par simulations

Rappel : sousH1F suit une loi d ´ecentr ´ee d’un facteurˆ λ 

sousH0: λ =0 

•Si on connaˆıtλ: r ´esultats analytiques possibles

(23)

Structures g ´en ´etiques consid ´er ´ees

Simulation des ph ´enotypes selon un sch ´ema poly ´eniquemarqueur test ´e=QTL:

i)ykfamille i= µ + 1 2poly.p`ere famille i k + 1

2poly.m`erek+al´ea.m´eiosek+g QTL k + εk

Variantes du sch ´ema polyg ´enique :

ii)Variances r ´esiduelles diff ´erentes :σε216= .. 6= σ

2 εp

iii)Moyennes diff ´erentes :µfamille i

iv)Epistasie : un locus en interaction avec le marqueur test ´e

(24)

Structures g ´en ´etiques consid ´er ´ees

Simulation des ph ´enotypes selon un sch ´ema poly ´eniquemarqueur test ´e=QTL:

i)ykfamille i= µ + 1 2poly.p`ere famille i k + 1

2poly.m`erek+al´ea.m´eiosek+g QTL k + εk

Variantes du sch ´ema polyg ´enique :

ii)Variances r ´esiduelles diff ´erentes :σε216= .. 6= σ

2 εp

iii)Moyennes diff ´erentes :µfamille i

iv)Epistasie : un locus en interaction avec le marqueur test ´e

(25)

Structures g ´en ´etiques consid ´er ´ees

Simulation des ph ´enotypes selon un sch ´ema poly ´eniquemarqueur test ´e=QTL:

i)ykfamille i= µ + 1 2poly.p`ere famille i k + 1

2poly.m`erek+al´ea.m´eiosek+g QTL k + εk

Variantes du sch ´ema polyg ´enique :

ii)Variances r ´esiduelles diff ´erentes :σε216= .. 6= σ

2 εp

iii)Moyennes diff ´erentes :µfamille i

iv)Epistasie : un locus en interaction avec le marqueur test ´e

(26)

•poly.p`erefamille ik ,poly.m`erek∼ N  0,1 2  ,al´ea.m´eiosek∼ N  0,1 4  et εk∼ N (0,1)

•Sch ´emas i)`a i)bis ´etudi ´es :

-Pour un QTL expliquant entre0 et 10 % de la variance totale

-Fr ´equences all ´eliques de 0.5sous HWE au QTL

-Nb. d’individus n=600 (p=20 et m=30)

(27)

R ´esultats : puissances et taux de faux positifs estim ´es (Monte-Carlo)

i) Sch ´ema polyg ´enique de r ´ef ´erence : [Sch ´ema i) :σ2

ε1= .. = σ

2 εp= σ

2

εinter-familles] : LDA homosc ´edastique / : LA homosc ´edastique

: LDA corrig ´ee : taux de faux positifs fix ´e `a 0.01

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Moyenne du pourcentage de variance expliquée par le génotype au QTL

Puissance

FIGURE1:Puissances estim ´ees pour le sch ´ema i)

10 20 30 40 50 0.0 0.1 0.2 0.3 0.4

Nombre de descendants pour chaque père

T

aux d'erreur de première espèce

FIGURE2:Taux de faux positifs pour le sch ´ema i)

(28)

R ´esultats : puissances et taux de faux positifs estim ´es (Monte-Carlo)

i)bisSNP test ´e est en LD variable avec QTL (sch ´ema polyg ´enique) :

: LDA homosc ´edastique / : LA homosc ´edastique : LDA corrig ´ee

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Moyenne du pourcentage de variance expliquée par le génotype au QTL

Puissance

FIGURE3:Puissances estim ´ees,r2=0.50

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Moyenne du pourcentage de variance expliquée par le génotype au QTL

Puissance

FIGURE4:Puissances estim ´ees,r2=0.10

Mod `eles d’association perdent en puissance de d ´etection `a plus de 20Kb≈r2<0.5

(Sham et al., 2000) R ´esultats vraisemblables par rapport `a des situations r ´eelles (De Roos et al., 2008)

(29)

Superposition des r ´esultats analytiques et estim ´es ( sch ´ema i)

polyg ´enique )

R ´esultats analytiques :

Facteurs pour les statistiques LDA et LA (FˆAetˆFT) sous H1:

LDA :    λhomo. A =

f

(n, α,fa1,fa2, σ 2 ε) λcorrig´A e=

f’

(n, α,fa1,fa2, σ 2 ε, σu2) LA :    λhomo.T =

g

(m,pe, δi,fa1,fa2, σ 2 ε) λh´et´ero. T =

g’

(m,pe, δi,fa1,fa2, σ 2 εi)

(30)

Superposition des r ´esultats analytiques et estim ´es ( sch ´ema i) )

Courbes analytiques (−−) et estim ´ees (−) :

: LDA homosc ´edastique / : LDA corrig ´ee : LA homosc ´edastique

(31)

Causes de d ´eviations entre les r ´esultats analytiques et estim ´es

Causes multiples !

Principalement :hypoth `eses des mod `eles pour la d ´erivation des facteurs associ ´es

Les fr ´equences esp ´er ´ees sous HWE sont r ´ealis ´ees : faux pour les simulations ! !

Moyennes et variances (6=simulations)

LA sensible aux simulations : nb. de p `eres a1a2, nb. descendants a1a1et a2a2r ´ealis ´es

(32)

Conclusions, limites et perspectives de l’ ´etude

R ´esultats coh ´erents et vraisemblables par rapport `a des situations r ´eelles

Les mod `eles LDA : plus puissants que les mod `eles LA ( ´echantillon fini, QTL `a petit effet, ´epistasie)

Les mod `eles LDA : robustes si on corrige pour la structure g ´en ´etique

Situations comportant un int ´er ˆet pour le LA (pour un QTL `a effet au moins mod ´er ´e) :

r2populationnel faible :

-Carte g ´en ´etique de faible densit ´e

-M ´elange de populations : m ˆeme all `ele `a un SNP en association avec des all `eles diff ´erents

Les mod `eles LA sont g ´en ´eralement peu pr ´ecis

Limites de l’ ´etude :populations de familles de demi- fr `eres, mod `eles uni-SNP

Perspective :m ˆeme ´etude avec des haplotypes

(33)

Conclusions, limites et perspectives de l’ ´etude

R ´esultats coh ´erents et vraisemblables par rapport `a des situations r ´eelles

Les mod `eles LDA : plus puissants que les mod `eles LA ( ´echantillon fini, QTL `a petit effet, ´epistasie)

Les mod `eles LDA : robustes si on corrige pour la structure g ´en ´etique

Situations comportant un int ´er ˆet pour le LA (pour un QTL `a effet au moins mod ´er ´e) :r2populationnel faible :

-Carte g ´en ´etique de faible densit ´e

-M ´elange de populations : m ˆeme all `ele `a un SNP en association avec des all `eles diff ´erents

Les mod `eles LA sont g ´en ´eralement peu pr ´ecis

Limites de l’ ´etude :populations de familles de demi- fr `eres, mod `eles uni-SNP

Perspective :m ˆeme ´etude avec des haplotypes

(34)

Conclusions, limites et perspectives de l’ ´etude

R ´esultats coh ´erents et vraisemblables par rapport `a des situations r ´eelles

Les mod `eles LDA : plus puissants que les mod `eles LA ( ´echantillon fini, QTL `a petit effet, ´epistasie)

Les mod `eles LDA : robustes si on corrige pour la structure g ´en ´etique

Situations comportant un int ´er ˆet pour le LA (pour un QTL `a effet au moins mod ´er ´e) :

r2populationnel faible :

-Carte g ´en ´etique de faible densit ´e

-M ´elange de populations : m ˆeme all `ele `a un SNP en association avec des all `eles diff ´erents

Les mod `eles LA sont g ´en ´eralement peu pr ´ecis

Limites de l’ ´etude :populations de familles de demi- fr `eres, mod `eles uni-SNP

Perspective :m ˆeme ´etude avec des haplotypes

(35)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

3

Discrimination entre mod `eles LDA utilisant des haplotypes

Mod `eles LDA haplotypiques compar ´es

M ´ethode de discrimination des AIP : comparaison matricielle

R ´esultats obtenus pour la discrimination des mod `eles

Distance matricielle en fonction des coefficients de R (LD)

Proposition d’un crit `ere num ´erique : l’efficacit ´e relative

Pr ´ecision des AIP et autres r ´esultats

Conclusions, limites et perspectives de l’ ´etude

(36)

Mod `eles LDA compar ´es (cadre haplotypique)

Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)



i.e.6=motifs de LD

Notations :

• I = {i1, ...,ir}un ensemble de r positions test ´ees

• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})

Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:

Y=1nµ +Zhh+Zuu+ ε

h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :

HP,i= (sPi,h

p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq

,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq

• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier

(37)

Mod `eles LDA compar ´es (cadre haplotypique)

Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD

Notations :

• I = {i1, ...,ir}un ensemble de r positions test ´ees

• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})

Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:

Y=1nµ +Zhh+Zuu+ ε

h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :

HP,i= (sPi,h

p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq

,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq

• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier

(38)

Mod `eles LDA compar ´es (cadre haplotypique)

Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD

Notations :

• I = {i1, ...,ir}un ensemble de r positions test ´ees

• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})

Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:

Y=1nµ +Zhh+Zuu+ ε

h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :

HP,i= (sPi,h

p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq

,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq

• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier

(39)

Mod `eles LDA compar ´es (cadre haplotypique)

Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD

Notations :

• I = {i1, ...,ir}un ensemble de r positions test ´ees

• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})

Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:

Y=1nµ +Zhh+Zuu+ ε

h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :

HP,i= (sPi,h

p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq

,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq

• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier

(40)

Mod `eles LDA compar ´es (cadre haplotypique)

Cadre :donn ´ees r ´eelles (pedigree porcin, chromosomes : porcins et humains) Niveaux de marquage : 50K (porcs) et 300K (humains)i.e.6=motifs de LD

Notations :

• I = {i1, ...,ir}un ensemble de r positions test ´ees

• k=nb. d’haplotypes observ ´es localement pour i∈ I •hp=un haplotype particulier (p∈ {1, ..,k})

Mod `ele g ´en ´eral LDA haplotypique au locus test ´e i∈ I:

Y=1nµ +Zhh+Zuu+ ε

h∼ Nk(0,Hiσ2h) , u∼ Nn(0,Aσu2) et ε ∼ Nn(0,Inσ2ε) En pratique (approx.) :

HP,i= (sPi,h

p,hq)p,q: pr ´edictions au locus i entre les chrom. porteurs de hpet hq

,→calcul ´ees par une m ´ethodeP(AIP) / bas ´ee sur la ressemblance entre hpet hq

• Cons ´equence : chaque AIP (P) d ´efinit un mod `ele LDA particulier

(41)

Les AIP compar ´es :

AIP discrets (i.e. si,hP

p,hq ∈ {0,1}) :

IBShap:

Soient hp= (122112)et hq= (122122), IBShap(hp,hp) =1 et IBShap(hp,hq) =0 IBSm: cas particulier de IBShap(all `eles d’un seul SNP, utilis ´e dans les GWAS)

AIP continus (i.e. sPi,h

p,hq ∈ [0,1]) :

Principe de construction : deux haplotypes sont potentiellement en association avec le m ˆeme all `ele au

QTL lorsqu’ils se ressemblent (Meuwissen et Goddard 2001, 2002 ; Li et Jiang, 2005...)

Score de similarit ´e, Li et Jiang (2005) :

Scorep,q=Prk=−lw1(xk)1(hp(k),hq(k)) +Pr

0

k=−l0

k6=0

w2(xk)(distance de Hamming : comptage)

P(IBD), Meuwissen et Goddard (2001) :P(i=Id.all´elique|IBS) (th ´eorie de la coalescence)

Beagle, Browning et Browning (2006) : mod `ele probabiliste de classification

(th ´eorie markovienne : VLMC) Trained predictor : moindres erreurs de pr ´ediction (apprentissage par OLS)

(42)

Les AIP compar ´es :

AIP discrets (i.e. si,hP

p,hq ∈ {0,1}) :

IBShap:

Soient hp= (122112)et hq= (122122), IBShap(hp,hp) =1 et IBShap(hp,hq) =0 IBSm: cas particulier de IBShap(all `eles d’un seul SNP, utilis ´e dans les GWAS)

AIP continus (i.e. sPi,h

p,hq ∈ [0,1]) :

Principe de construction : deux haplotypes sont potentiellement en association avec le m ˆeme all `ele au

QTL lorsqu’ils se ressemblent (Meuwissen et Goddard 2001, 2002 ; Li et Jiang, 2005...)

Score de similarit ´e, Li et Jiang (2005) :

Scorep,q=Prk=−lw1(xk)1(hp(k),hq(k)) +Pr

0

k=−l0

k6=0

w2(xk)(distance de Hamming : comptage)

P(IBD), Meuwissen et Goddard (2001) :P(i=Id.all´elique|IBS) (th ´eorie de la coalescence)

Beagle, Browning et Browning (2006) : mod `ele probabiliste de classification

(th ´eorie markovienne : VLMC) Trained predictor : moindres erreurs de pr ´ediction (apprentissage par OLS)

(43)

Les AIP compar ´es :

AIP discrets (i.e. si,hP

p,hq ∈ {0,1}) : IBShap:

Soient hp= (122112)et hq= (122122), IBShap(hp,hp) =1 et IBShap(hp,hq) =0 IBSm: cas particulier de IBShap(all `eles d’un seul SNP, utilis ´e dans les GWAS)

AIP continus (i.e. sPi,h

p,hq ∈ [0,1]) :

Principe de construction : deux haplotypes sont potentiellement en association avec le m ˆeme all `ele au

QTL lorsqu’ils se ressemblent (Meuwissen et Goddard 2001, 2002 ; Li et Jiang, 2005...)

Score de similarit ´e, Li et Jiang (2005) :

Scorep,q=Prk=−lw1(xk)1(hp(k),hq(k)) +Pr

0

k=−l0

k6=0

w2(xk)(distance de Hamming : comptage)

P(IBD), Meuwissen et Goddard (2001) :P(i=Id.all´elique|IBS) (th ´eorie de la coalescence)

Beagle, Browning et Browning (2006) : mod `ele probabiliste de classification

(th ´eorie markovienne : VLMC)

(44)
(45)

M ´ethode de discrimination des AIP : comparaison matricielle (1)

D ´emarche :

Pest efficace et pr ´ecis : MP,isimilaire `a MQTLdans unvoisinage serr ´e autour du QTL et non ailleurs

,→d1(MP,i,MQTL) =

1 4n2kM

P,iMQTLk

(46)

M ´ethode de discrimination des AIP : comparaison matricielle (1)

D ´emarche :

Pest efficace et pr ´ecis : MP,isimilaire `a MQTLdans unvoisinage serr ´e autour du QTL et non ailleurs

,→d1(MP,i,MQTL) =

1

kMP,i−MQTLk

(47)

M ´ethode de discrimination des AIP : comparaison matricielle (1)

D ´emarche :

Pest efficace et pr ´ecis : MP,isimilaire `a MQTLdans unvoisinage serr ´e autour du QTL et non ailleurs

,→d1(MP,i,MQTL) = 1 4n2kM

P,iMQTLk

(48)

M ´ethode de discrimination des AIP : comparaison matricielle (2)

Objectifs de la d ´emarche :

Analyserth ´eoriquement la relation entre d1(MP,i,MQTL)et lescoefficients de la mesure R

Rappel de la mesure R (pour un QTL biall ´elique) :

Ri,QTL= 2 k X p=1 ∆2 p  1− K X p=1 fi,hQTL 2 p  1− 2 X l=1 fa2l  =

f

(∆1, .., ∆k)

(49)

R ´esultats : distance matricielle en fonction des coefficients de R (LD)

R ´esultats publi ´es :Using haplotypes for the prediction of allelic identity to fine-map QTL : characterization and properties (Jacquin et al., 2014)

Expression analytique de d1(MP,i,MQTL)en fonction des coefficients de R

d1(MP,i,MQTL) = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp  ∆2p+B.∆p+C # = ξP(∆1, .., ∆k)

B,C : som. et prod. de fr ´eq. marginales

•Comportement complexe pour un AIP continu et `a valeurs dans [0,1]

•PourP =IBShap: sPi,hp,hq=0 et s

P i,hp,hp=1 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+B.∆p+C #

En esp ´erance :ξIBShap(∆

1, .., ∆k)diminue quand R augmente, i.e.iQTL

(50)

R ´esultats : distance matricielle en fonction des coefficients de R (LD)

R ´esultats publi ´es :Using haplotypes for the prediction of allelic identity to fine-map QTL : characterization and properties (Jacquin et al., 2014)

Expression analytique de d1(MP,i,MQTL)en fonction des coefficients de R

d1(MP,i,MQTL) = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp  ∆2p+B.∆p+C # = ξP(∆1, .., ∆k)

B,C : som. et prod. de fr ´eq. marginales

•Comportement complexe pour un AIP continu et `a valeurs dans [0,1]

•PourP =IBShap: sPi,hp,hq=0 et s

P i,hp,hp=1 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+B.∆p+C #

En esp ´erance :ξIBShap(∆

1, .., ∆k)diminue quand R augmente, i.e.iQTL

(51)

R ´esultats : distance matricielle en fonction des coefficients de R (LD)

R ´esultats publi ´es :Using haplotypes for the prediction of allelic identity to fine-map QTL : characterization and properties (Jacquin et al., 2014)

Expression analytique de d1(MP,i,MQTL)en fonction des coefficients de R

d1(MP,i,MQTL) = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp  ∆2p+B.∆p+C # = ξP(∆1, .., ∆k)

B,C : som. et prod. de fr ´eq. marginales

•Comportement complexe pour un AIP continu et `a valeurs dans [0,1]

•PourP =IBShap: sPi,hp,hq=0 et s

P i,hp,hp=1 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+B.∆p+C #

En esp ´erance :ξIBShap(∆

1, .., ∆k)diminue quand R augmente,

(52)

Pour aller plus loin, k

=

2 haplotypes :

• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+c

Observations particuli `eres :

La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :

−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]

ξPd ´ecroˆıtra d’autant moins vite que sP

i,h1,h2sera grand (met en d ´efaut le principe de construction)

• ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal

 ∆1∈ h −1 4, 1 4 i : ξP−1 4  = ξP1 4  ≥1 2s P i,h1,h2

Lorsque|∆1|est maximal :

ξP−1 4  = ξP1 4  =0⇐⇒ P =IBShap

(53)

Pour aller plus loin, k

=

2 haplotypes :

• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+c

Observations particuli `eres :

La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :

−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]

ξPd ´ecroˆıtra d’autant moins vite que sP

i,h1,h2sera grand (met en d ´efaut le principe de construction)

• ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal

 ∆1∈ h −1 4, 1 4 i : ξP−1 4  = ξP1 4  ≥1 2s P i,h1,h2

Lorsque|∆1|est maximal :

ξP−1 4  = ξP1 4  =0⇐⇒ P =IBShap

(54)

Pour aller plus loin, k

=

2 haplotypes :

• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+c

Observations particuli `eres :

La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :

−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]

ξPd ´ecroˆıtra d’autant moins vite que sP

i,h1,h2sera grand (met en d ´efaut le principe de construction)

• ∀P → [0,1],∃une borne inf. pour la distance

lorsque|∆1|est maximal  ∆1∈ h −1 4, 1 4 i : ξP−1 4  = ξP1 4  ≥1 2s P i,h1,h2

Lorsque|∆1|est maximal :

ξP−1 4  = ξP1 4  =0⇐⇒ P =IBShap

(55)

Pour aller plus loin, k

=

2 haplotypes :

• P → [0,1] =⇒ ξP(∆ 1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+b.∆1+c

Observations particuli `eres :

La plus forte vitesse de d ´ecroissance est donn ´ee par l’IBShapcar :

−8∆2 1 IBShap ≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i ∆2 1 o `u s P i,hp,hq∈ [0,1]

ξPd ´ecroˆıtra d’autant moins vite que sP

i,h1,h2sera grand (met en d ´efaut le principe de construction)

• ∀P → [0,1],∃une borne inf. pour la distance

lorsque|∆1|est maximal  ∆1∈ h −1 4, 1 4 i : ξP−1 4  = ξP1 4  ≥1 2s P i,h1,h2

Lorsque|∆1|est maximal :

ξP−1 4  = ξP1 4  =0⇐⇒ P =IBShap

(56)

Relation entre d

1

(

M

P,i

,

M

QTL

)

et R

[chrom. humains : HapMap]

FIGURE6:Distributions des distances matricielles sur 14973 fen ˆetres pour des loci biall ´eliques cach ´es



(57)

Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)

Crit `ere de comparaison usuel en cartographie de QTL :

Pr ´ecision (crit `ere usuel) :

RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position

Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :

Soient θQTL: position d’un QTL et θP=argmin

i∈I

{d1(MP,i,MQTL) }

P1 est plus efficace que P2 si

   |θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)

RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ

QTL|



sous-crit `ere (a)

ρSpearman

(RMSEr .e.,RMSEm.a.) ≥0,9

(58)

Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)

Crit `ere de comparaison usuel en cartographie de QTL : Pr ´ecision (crit `ere usuel) :

RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position

Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :

Soient θQTL: position d’un QTL et θP=argmin i∈I

{d1(MP,i,MQTL) }

P1 est plus efficace que P2 si

   |θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)

RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ

QTL|



sous-crit `ere (a)

ρSpearman

(RMSEr .e.,RMSEm.a.) ≥0,9

(59)

Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)

Crit `ere de comparaison usuel en cartographie de QTL : Pr ´ecision (crit `ere usuel) :

RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position

Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :

Soient θQTL: position d’un QTL et θP=argmin i∈I

{d1(MP,i,MQTL) }

P1 est plus efficace que P2 si

   |θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)

RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ

QTL|



sous-crit `ere (a)

ρSpearman

(RMSEr .e.,RMSEm.a.) ≥0,9

(60)

Proposition d’un crit `ere : efficacit ´e relative (compl ´ementaire / pr ´ecision)

Crit `ere de comparaison usuel en cartographie de QTL : Pr ´ecision (crit `ere usuel) :

RMSEm.a.: racine de l’ ´ecart carr ´e moyen de la position estim ´ee par rapport `a la vraie position

Efficacit ´e relative (crit `ere compl ´ementaire `a RMSEm.a.) :

Soient θQTL: position d’un QTL et θP=argmin i∈I

{d1(MP,i,MQTL) }

P1 est plus efficace que P2 si

   |θP1− θ QTL| < |θP2− θQTL| (a) d1(MP1,θ P1 ,MQTL) <d 1(MP2,θ P2 ,MQTL) (b)

RMSEr .e.: racine de l’ ´ecart carr ´e moyen pour|θP1− θ QTL|



sous-crit `ere (a)

ρ

Spearman(RMSEr .e.,RMSEm.a.) ≥0,9

(61)

Autres r ´esultats : pr ´ecision des AIP

Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :

•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)

•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)

•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)

(62)

Autres r ´esultats : pr ´ecision des AIP

Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :

•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)

•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)

•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)

(63)

Autres r ´esultats : pr ´ecision des AIP

Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :

•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)

•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)

•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)

(64)

Autres r ´esultats : pr ´ecision des AIP

Un QTL simul ´e 200 fois pour 3 niveaux de LD variablesSSC18 (porcs) , sch ´ema polyg ´enique, expliquant≤8%ou≤57%de la variance totale (1200 situations de cartographie) :

•IBShapestmajoritairement plus pr ´ecis suivi de P(IBD) (Statistique de test : RLRT)

•IBShapestmajoritairement plus efficace (m ˆeme pour un LD mod ´er ´e)

•Beagleplus pr ´ecis si LD & variance expliqu ´ee petits (1 cas empirique, approfondir ?)

(65)

Conclusions, limites et perspectives de l’ ´etude

D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique

Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision

(1) et (2) : identification de IBShapcomme AIP de choix

IBShap:

Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable

Limites : marquage `a haute densit ´e (50K), donn ´ees correctement phas ´ees

,→Consid ´erer d’autres AIP

(66)

Conclusions, limites et perspectives de l’ ´etude

D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique

Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision

(1) et (2) : identification de IBShapcomme AIP de choix

IBShap:

Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable

Limites : marquage `a haute densit ´e (50K), donn ´ees correctement phas ´ees

,→Consid ´erer d’autres AIP

(67)

Conclusions, limites et perspectives de l’ ´etude

D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique

Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision

(1) et (2) : identification de IBShapcomme AIP de choix

IBShap:

Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable

Limites : marquage `a haute densit ´e (50K), donn ´ees correctement phas ´ees

,→Consid ´erer d’autres AIP

(68)

Conclusions, limites et perspectives de l’ ´etude

D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique

Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision

(1) et (2) : identification de IBShapcomme AIP de choix

IBShap:

Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable

Limites : marquage `a haute densit ´e (50K), donn ´ees correctement phas ´ees

,→Consid ´erer d’autres AIP

(69)

Conclusions, limites et perspectives de l’ ´etude

D ´eveloppements alg ´ebriques (1) : expliquent la prise en compte du LD haplotypique

Efficacit ´e relative (2) : crit `ere utile et compl ´ementaire `a la pr ´ecision

(1) et (2) : identification de IBShapcomme AIP de choix

IBShap:

Avantages : bonnes propri ´et ´es th ´eoriques par rapport au LD, simple, rapide et num ´eriquement stable

Limites : marquage `a haute densit ´e (50K), donn ´ees correctement phas ´ees

,→Consid ´erer d’autres AIP

(70)

Plan de l’expos ´e

1

Contexte et objectifs de la th `ese

2

Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des

structures g ´en ´etiques (cadre uni-SNP)

3

Discrimination entre mod `eles LDA utilisant des haplotypes

(71)

Conclusions g ´en ´erales de la th `ese

Avantages des approches haplotypiques par rapport `a l’uni-SNP :

Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecisRendre compte d’un multiall ´elisme quelconque

•IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :

Reconstruction des phases

Param ´etrage (taille de fen ˆetre) et temps de calcul associ ´es

Int ´er ˆets du LA en cartographie : peu de LD ou validation (cas sp ´ecifiques)

LDA : il faut savoir prendre en compte la structure Perspectives :

Puissances et robustesses : mod `eles LDA haplotypiques

Doit-on comparer d’autres AIP (Fastphase, ARG, l’analyse cladistique..) ?Comprendre les ph ´enom `enes biologiques (interactions..) pour le d ´eveloppement

(72)

Conclusions g ´en ´erales de la th `ese

Avantages des approches haplotypiques par rapport `a l’uni-SNP :

Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecis

Rendre compte d’un multiall ´elisme quelconque •IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :

Reconstruction des phases

Param ´etrage (taille de fen ˆetre) et temps de calcul associ ´es

Int ´er ˆets du LA en cartographie : peu de LD ou validation (cas sp ´ecifiques)

LDA : il faut savoir prendre en compte la structure Perspectives :

Puissances et robustesses : mod `eles LDA haplotypiques

Doit-on comparer d’autres AIP (Fastphase, ARG, l’analyse cladistique..) ?Comprendre les ph ´enom `enes biologiques (interactions..) pour le d ´eveloppement

(73)

Conclusions g ´en ´erales de la th `ese

Avantages des approches haplotypiques par rapport `a l’uni-SNP :

Meilleure description du LD localement (somme de polyn ˆomes), plus pr ´ecis

Rendre compte d’un multiall ´elisme quelconque •IBShappotentiellement le meilleur AIP / LD multiall ´elique Limites des haplotypes :

Reconstruction des phases

Param ´etrage (taille de fen ˆetre) et temps de calcul associ ´es

Int ´er ˆets du LA en cartographie : peu de LD ou validation (cas sp ´ecifiques)

LDA : il faut savoir prendre en compte la structure Perspectives :

Puissances et robustesses : mod `eles LDA haplotypiques

Doit-on comparer d’autres AIP (Fastphase, ARG, l’analyse cladistique..) ?Comprendre les ph ´enom `enes biologiques (interactions..) pour le d ´eveloppement

(74)

Remerciements

Financeurs : ANR et INRA

Directeurs de th `ese : Jean-Michel Elsen et H ´el `ene Gilbert

Jury : Didier Boichard, Maria Martinez, Miguel P ´erez-Enciso,

Anne-Louise Leutenegger et mes directeurs

Membres de l’unit ´e INRA-GENPHYSE

GENOPOLE, DGA et CTIG

(75)

Lien entre expos ´e et annexes

1 Contexte et objectifs de la th `ese

La cartographie de QTL

Mesure du d ´es ´equilibre de liaison (LD)

Les mod `eles d’association (LDA) et mod `eles de liaison (LA) Cadre et objectifs

2 Discrimination entre mod `eles d’association (LDA) et de liaison (LA) par rapport `a des structures

g ´en ´etiques (cadre uni-SNP)

Mod `eles LDA et LA compar ´es Structures g ´en ´etiques consid ´er ´ees

R ´esultats obtenus pour les mod `eles LDA et LA

Puissances et taux de faux positifs estim ´es par Monte-Carlo (MC)

Comparaison des r ´esultats estim ´es et analytiques Conclusions, limites et perspectives de l’ ´etude

3 Discrimination entre mod `eles LDA utilisant des haplotypes

Mod `eles LDA haplotypiques compar ´es

M ´ethode de discrimination des AIP : comparaison matricielle R ´esultats obtenus pour la discrimination des mod `eles

Distance matricielle en fonction des coefficients de R (LD)

Proposition d’un crit `ere num ´erique : l’efficacit ´e relative

Pr ´ecision des AIP et autres r ´esultats

Conclusions, limites et perspectives de l’ ´etude

(76)

Annexes (1)

Cas d’ ´ecole : Soient : ( H1: Y∼ Nn(Xβ, σ2In) H0: Y∼ Nn(X0β0, σ2In)

Sous H1le num ´erateur deF :ˆ k ˆY− ˆY0k22=Y 0 PE∩E⊥ 0 Y ∼ H0 σ2χ2(

q, λ) [th ´eo. sur les formes quadra.]

o `uλ = (Xβ)0P

E∩E⊥ 0 (Xβ)

σ2 (facteur de d ´ecentrage) Or, d’apr `es les th ´eor `emes sur les formes quadratiques : PE∩E

0 =PE −PE0  EY0PE∩E⊥ 0 Y = (Xβ)0PE∩E⊥ 0 ( Xβ) + σ2tr(PE∩E⊥ 0 ) = σ2λ + tr(PE∩E⊥ 0 ) 

On voit donc que : EY0PE∩E

0 Y = EkˆY

− ˆY0k22] 6= λ

Alg ´ebriquement : pour le sch ´emas iii) [moyennes diff ´erentes] on aEY0PE∩E⊥ 0 Y

 > λhomo. A lorsque Y ∼ Nn(Xiiiβiii,Viii)au lieu de H1

(77)

Annexes (2)

ii) Sch ´ema avec des variances r ´esiduelles diff ´erentes inter familles :

: analyse d’association homosc ´edastique / : analyse d’association corrig ´ee

: analyse de liaison h ´et ´erosc ´edastique / : taux d’erreur de premi `ere esp `ece fix ´e `a 0.01

0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0

Moyenne du pourcentage de variance expliquée par le génotype au QTL

Puissance

FIGURE7:Puissances estim ´ees pour le sch ´ema ii)

10 20 30 40 50 0.0 0.1 0.2 0.3 0.4

Nombre de descendants pour chaque père

T

aux d'erreur de première espèce

FIGURE8:Taux de faux positifs pour le sch ´ema ii)

Tr `es l ´eg `ere inflation du taux d’erreur pour l’association h ´et ´erosc ´edastique :λ 6=0⇒optimisation (EM, REML...) associ ´ee `a l’estimation des(σ2

(78)

Annexes (3)

Soit la distance entre MP,iet MQTL(entrywise 1-norm) :

d1(MP,i,MQTL) = 1 4n2kM P,i MQTLk1= 1 4n2 2n X c1=1 2n X c2=1 |sPi,c1,c2−u QTL c1,c2| = k X p=1 " 4 Xk q6=p sPi,h p,hq−s P i,hp,hp  ∆2p+ Ψ P pq(∆l6=p,q)∆p+ ΦPpq(∆l6=p,q) # =ξP(∆1, .., ∆k) ΨPpq, Φ P

pq: som. et prod. de fr ´eq. marginales

•Pour un AIP continu : grand ensemble de valeurs pour les (sPi,h

p,hq)(p,q)∈{1,..k }2

•PourP =IBShap: sPi,hp,hp=1 et s

P i,hp,hq=0 ⇒ ξIBShap(∆ 1, .., ∆k) = k X p=1 " −4∆2p+ Ψ IBShap pq ∆p+ Φ IBShap pq #

En esp ´erance :ξIBShap(∆

(79)

Annexes (4) : relation locale entre

ξ

P

(∆

1

, .., ∆

k

)

et R

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Trained predictor

LD between haplotypes and target alleles

Matr ix distance f or TP at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Score predictor

LD between haplotypes and target alleles

Matr ix distance f or Score at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Beagle predictor

LD between haplotypes and target alleles

Matr ix distance f or Beagle at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 IBS_m predictor

LD between haplotypes and target alleles

Matr ix distance f or IBS_m at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 IBS_hap predictor

LD between haplotypes and target alleles

Matr ix distance f or IBS_hap at target SNP 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 P(IBD) predictor

LD between haplotypes and target alleles

Matr

ix distance f

or P(IBD) at target SNP

FIGURE9:Distributions des distances matricielles sur 14973 fen ˆetres (14973 loci cach ´es≈QTL cach ´es)



(80)

Annexes (5)

0.05

0.15

0.25

0.35

R profiles between a tested position and a QTL

Tested positions E x p e c te d v a lu e o f R i,QTL 1 38 76 QTL R profile for HCB R profile for FLW QTL position 0.02 0.05 0.08

D2 profiles between a tested position and a QTL

Tested positions E x p e c te d v a lu e o f D 2i,QTL 1 38 76 QTL D2 profile for HCB D2 profile for FLW QTL position

(81)

Annexes (6)

R ´esultats importants pour k

=

2 haplotypes :

• P → [0,1] =⇒ ξP(∆1) = h −4si,hP 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2 1+ Ψ P 1+ ΦP

• P =IBShap=⇒ ξIBShap(∆1) = −8∆21+ Ψ IBShap

1+ ΦIBShap

Observations particuli `eres :

• La plus forte vitesse de d ´ecroissance : −8∆2 1 IBShap car −8≤h−4sPi,h 1,h1−4s P i,h2,h2 −8≤ + 8sPi,h 1,h2 ≥0 i h −4sPi,h 1,h1−4s P i,h2,h2+8s P i,h1,h2 i ∆2

1d ´ecroˆıtra d’autant moins vite : h1et h2seront similaires

(cette propri ´et ´e met en d ´efaut..) • ∀P → [0,1],∃une borne inf. pour la distance lorsque|∆1|est maximal :

ξP−1 4  = ξP1 4  ≥1 2s P i,h1,h2  o `u∆1∈ h −1 4, 1 4 i

• Lorsque|∆1|est maximal :

ξP−1 4  = ξP1 4  =0⇐⇒ P =IBShap

(82)

Annexes (6 bis) : conditions et limites de validit ´e pour l’IBS

hap

Valable pour toutes les m ´ethodes haplotypiques : donn ´ees correctement phas ´ees

(bien que l’IBShapest potentiellement plus sensible)

Densit ´e de marquage potentiellement tr `es critique :≤20K (typages informatifs)

Comment arrive-t-on `a 20K ? :

Mauvaise efficacit ´e pour l0IBShap: R=0.08 avec des haplotypes, de 6 SNP, de taille 0.75cM

soit 0.15 cM en moyenne entre 2 SNP (≈150Kb)

Extrapolation de la densit ´e de marquage critique =Taille du g ´enome chez le porc

150Kb =

3.106Kb 150Kb =20Kb

(83)

Annexes (7) :

ξ

P

(∆

1

, .., ∆

k

)

inter position test ´ee et QTL (exemple)

Raugmente lorsque i→QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 Trained Predictor Tested_position dist_M_TP_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 Score predictor Tested_position dist_M_Score_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 IBS_hap predictor Tested_position dist_M_IBS_hap_i_M_QTL QTL 5 10 15 20 25 30 35 0.2 0.3 0.4 0.5 0.6 P(IBD) predictor Tested_position dist_M_P_IBD_i_M_QTL QTL 0 10 20 30 40 0.2 0.3 0.4 0.5 0.6 Beagle predictor Tested_position dist_M_Beagle_i_M_QTL QTL 0 10 20 30 40 0.1 0.3 0.5 IBS_m predictor Tested_position dist_M_IBS_m_i_M_QTL QTL

FIGURE11: Distributions de distances issues de 200 genedropping235 chromosomes SSC18 (FLW) pourIcontenant un QTL[Ri∗,QTL=0.18] : courbes moyennes et quantiles empiriques `a 2.5% et 97.5%

(84)

Annexes (8) : similitude des distances pour P

(

IBD

)

et IBS

hap

P(IBD) :P(2 chromosomes ont le m ˆeme all `ele|´etats IBS des all `eles des haplotypes)

(cf. Ytournel et al., 2007 :distribution en U)

FIGURE12: Distributions des(sPi,c

1,c2)1≤c1,c2≤2npour IBShapet P(IBD)au QTL



un genedropping des

(85)

Annexes (9) : exemple de distributions des g ´enotypes inter-simulations

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Distributions des homozygotes, intra simulation, associées à un pourcentage de variance expliquée par le génotype au QTL de 2% pour p=20 et m=15 (i.e. n=300)

Numéro de simulation

Nombre d'homozygotes a1a1 et a2a2

0 20 40 60 80 100 Nb. a1a1 Nb. a2a2 75

Moyenne sur 30 simulations Moyenne sur 30 simulations

(86)

Annexes (10) : mod `eles en grande dimension (i.e.

k

>>

n)

Soit le mod `ele g ´en ´eral :

Y=Xβ + ε

βde taillek (nb. de variables, nb. de SNP par exemple) Y de taillen (nb. d’individus)

Soits le nb. de variables ayant r ´eellement un effet ; s<k (Sparsit ´e : nb. fini de QTLs par exemple)

L’estimation du support deβ(i.e. les s coefficients) est quasi-impossible si :

Crit `ere de UHD : C∗= s

nln k s  >1 2 (Verzelen, 2012) Exemple : k=50000 (nb. SNP), s=1000 (nb.QTL) et n=3000 on a C∗=1.3>0.5

Ridge, Lasso, Bay ´esien (Bayes A, B..) etc

Ridge : Yˆ=Xβˆλ o `u βˆλ=argmin β∈Rk {kY−Xβk2 2+ λkβk 2 2} p ´enalit ´e` 2 Lasso : Yˆ=Xβˆλ o `u βˆλ=argmin β∈Rk {kY−Xβk2 2+ λkβk1} p ´enalit ´e`1  Bayes A : Y= ˜Xβ + ε = µ +˜ Xβ + ε avecβ ∼ N (0,Ikσβ2) o `uσ2β∼ χ−2(v,S)

(87)

Annexes (10 bis) : mod `eles en grande dimension (i.e.

k

>>

n)

Comparaison entre approche positionnelle et Bayes c

π

•Des analyses sur donn ´ees r ´eelles :cor.test (uni-SNP mixte, Bayes cπ)0,9(Teyss `edre, 2011)

•Etude par simulation de cartographie avec Bayes cπ(Van der Berg, 2013) :

Il faut fixer une valeur grande pourπ(proportion de SNP nuls) afin de bien d ´etecter les QTL

On d ´etecte mieux les QTL a fort effet pour des caract `eres tr `es h ´eritables

(fort taux de faux positifs sinon)

(88)

Annexes (11) : Structures g ´en ´etiques consid ´er ´ees

Simulation des ph ´enotypes :variantes du sch ´ema polyg ´enique (o `u le marqueur test ´e=QTL)

i)yki = 1 2p fa.,i+1 2p mo. k + φk+gk+ εk 

sch ´ema polyg ´enique de r ´ef ´erence ii)yki = 1 2p fa.,i+1 2p mo. k + φk+gk+ εi,stand.k 

variances r ´esiduelles diff ´erentes

iii)yki = µi+ 1 2p fa.,i+1 2p mo. k + φk+gk+ εk 

moyennes diff ´erentes

iv)yki = 1 2p fa.,i+1 2p mo. k + φk+ginteract.k +εk 

a1en interaction avec b1en un locus



,→ginteract.k = αou 2αsi le g ´enotype=a1a2ou a1a1et b1est pr ´esent

i)bisyi k= 1 2p fa.,i+1 2p mo. k + φk+gk+ εk 

marqueur test ´e6=QTL, en diff ´erent niveaux de LD

•pi,pkmo.∼ N  0,1 2  , φk∼ N  0,1 4  h

relation classique : var(φk) = 1 2var(p i)i • εk∼ N (0,1), µi∼ N (0,2) et εik∼ N (0, σ 2 εi)o `uσ 2 εi ∼Inv -χ 2( 1)

(89)

Annexes (12) : Distance matricielle pour k=2 avec LD maximal

ξIBShap(∆ 1) = −8∆12+4[( ˜α1− α1) + (α2− ˜α2)] ∆1− ( ˜α1− α1)2− (α2− ˜α2)2 + (α1+ α2)2+ ( ˜α2+ ˜α1)2 o `u ( ˜α1− α1) =fi,h1(fa2−fa1) et (α2− ˜α2) =fi,h2(fa1−fa2) Or (page 21),

1≤min(fa1fi,h2,fa2fi,h1) =

1

4si fa1=fi,h1= 1 2

1≤ −min(fa1fi,h1,fa2fi,h2) = −

1 4si fa1=fi,h1= 1 2 Pour∆1= 1 4ou− 1 4,ξ

IBShapest donc de la forme :

ξIBShap(∆

1) = −8∆12+ (α1+ α2)2+ ( ˜α2+ ˜α1)2

(90)

Annexes (13) : niveaux d’association entre haplotypes et all `eles

Cas : k≥3

fi,h1=fi,h2=fi,h3=

1

3et fa1=fa2= 1

2 (3 haplotypes et 1 QTL biall ´elique)

Supposons que h1est totalement associ ´e `a a1au QTL

La fr ´equence des a1restant est donc 1 2− 1 3= 1 6<< 1 3

Références

Documents relatifs