ASSOCIATIONS IDENTIFIES PAR TRANSGENESE OU PAR BACKCROSS CAR RISQUE DE FAUX POSITIFS

L’exemple de Dwarf8 & Vgt1 chez le maïs…

ASSOCIATIONS IDENTIFIES PAR TRANSGENESE OU PAR BACKCROSS CAR RISQUE DE FAUX POSITIFS

120

Vgt1 (Salvi et al., 2002, 2005, 2007)

1) Analyse QTL / MetaQTL (Salvi et al., 2002)

Vgt1 (Salvi et al., 2005)

122

Vgt1 (Ducrocq et al., 2008)

Etude de « Vgt1 » dans le panel d’association S1P9 (Ducrocq et al., 2008)

124

ETUDES D’ASSOCIATION SUR LA

PRECOCITE DE FLORAISON CHEZ LE MAÏS

De l’approche gène candidat aux études

« whole genome » (GWAS)

Le dispositif expérimental: S1P9

Panel de diversité de maïs S1P9 - 375 lignées

Données de génotypage

Puce 50 000 SNPs (Ganal et al., 2011) à 336 lignées

à 45 497 marqueurs utilisables

Données de phénotypage : 9 environnements (lieu x année)

à 365 lignées à 3 caractères :

- Floraison mâle - Floraison femelle

- Intervalle floraison mâle - floraison femelle (ASI)

126

INTRODUCTION

Le dispositif expérimental: La puce 50K SNPs

⇒  57838 SNPs

⇒  24 lignées par lame

⇒  120-150€ par lignée (<0.005€ par point de génotypage)

Plusieurs source de SNPs:

40430 SNPs <= reséquençage d’un panel de large diversité => 27 lignées (Gore et al., 2009)

14810 SNPs <= comparaison de séquence cDNA Mo17 vs B73

2008 SNPs <= comparaison de séquence d’EST F2 vs B73 (P. Montalent, J. Joets et al.)

590 SNPs provenant de SNPs présents dans les bases de données

INTRODUCTION

Le dispositif expérimental: La puce 50K SNPs

Distribution des SNPs le long du génome du maïs après élimination des 8553 SNPs de mauvaise

qualité:

⇒  ~1 SNP / 50kbp (génome du maïs ~ 2.5Gb) mais forte variation

⇒  ~17500 gènes contiennent un SNPs ou plus (~33000 SNPs dans les gènes)

⇒  ~16000 SNPs dans les régions intergéniques

128

INTRODUCTION

Le dispositif expérimental: La puce 50K SNPs

SNP 1

Le dispositif expérimental: Principe de la puce 50K SNPs

Génotypage d’un SNP A/B sur un ensemble de lignées de maïs

Line 1

Line 2

Line 3

Intensité de fluorescence

X normalisé

Y normalisé

Normalisation

AA AB

130

Filtrer sur la qualité des données => Etablir une stratégie et des seuils

Etape 1:Filtrer les locus avec une mauvaise qualité

basé sur les mesure qualité illumina (GCscore…)

=> 8253 SNPs eliminated

Etape 2:Filtrer les locus sur leur taux de données manquantes (>20%) et d’hétérozygotie (>15%)

Etape 4: Filtrer les lignées sur leur taux de données manquantes (>10%) et d’hétérozygotie (>5%)

=> 29 lignées eliminés

Panel S1P9

375 lignées 49585 SNPs

Etape 5: Eliminer les locus non polymorphes X SNPs éliminés

365 lignées 375 lignées

336 lignées

336 lignées 45615 SNPs

Etape 3:Filtrer les lignées non conformes d’après SSR et analyse de similarité

=> 10 lignées éliminés

Analyse de diversité: Distribution des fréquences alléliques

MAIS Deux sources de SNPs (Syngenta / Panzea) avec des propriétés differentes

Tous les SNPs

Les SNPs Panzea

Découverts avec 25 lignées

Les SNPs Syngenta

Découverts avec 2 lignées

Minor allele frequency (MAF)

132

Analyse de diversité: Plusieurs méthodes de calcul des matrice d’apparentements (kinship)

Deux matrices d’apparentement sont calculées: 1) l’identité par état = (IBS) 2) une identité par état pondérée par la diversité et

par les fréquences alléliques (IBS corrigé)

IBS simple

IBS corrigé (Loiselle)

Analyse de diversité: Comparaison des distances interindividuelles pour les deux méthodes

Gamme de variation plus élevée pour IBS corrigé / IBS simple mais bonne corrélation entre les deux matrices

134

Analyse de diversité: Le choix d’un jeu de SNPs peut avoir des conséquences fortes sur le calcul des apparentements

Biais de découverte des SNPs dans les SNPs syngenta (maximise les distances entre les lignées proche de Mo17/B73)

Seuls les SNPs Panzea doivent être utilisés pour les analyses de diversité

Loiselle IBS simple

Analyse de diversité: Le choix d’un jeu de SNPs peut avoir des conséquences fortes sur le calcul des distances

Les lignées Mo17 et B73 se retrouvent plus distants avec les SNPs syngenta

qu’avec les SNPs panzea même avec

l’IBS corrigé

136

Corrélation des matrices d’apparentements: SSR vs SNPs

Comparaison des matrices d’apparentements entre les lignées du panel S1P9 obtenues avec les SSR et avec les SNPs

Panzea

Analyse de la structuration du panel avec les SNPs panzea

Comparaison de la structure du panel S1P9 obtenus sur 55SSR et avec les SNPs Panzea avec le logiciel Structure et

« admixture » (Alexander et al., 2009)

138

Analyse de diversité: Distribution des fréquences alléliques pour les SNPs Panzea

139

Analyse de l’étendue du déséquilibre de liaison

r2 corrigé de la structure et de l’apparentement (Mangin et al., 2012): library LDcorSV dans R

⇒  Permet d’estimer correctement le r2 utile dans le cadre d’un modèle mixte Q+K Phénotype = µ + αM + βQ + Zu + e

140

Analyse de l’étendue du déséquilibre de liaison

r2 corrigé de la structure et de l’apparentement (Mangin et al., 2012): library LDcorSV dans R

⇒  Permet d’estimer correctement le r2 utile dans le cadre d’un modèle mixte Q+K Phénotype = µ + αM + βQ + Zu + e

La densité de marqueurs avec la puce 50K est insuffisante compte tenu du DL pour identifier l’ensemble des

polymorphismes responsables par génétique d’association a: mk nec.

pour r²=0.1

GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013)

Test de la spécification du modèle: Uniformité des p.value Test des différentes matrices Q et K

Phénotype = µ + αM + e Modèle Simple

Modèle Q

Phénotype = µ + αM + βQ + e Modèle Q+K

Phénotype = µ + αM + βQ + Zu + e

142

Modèle utilisé pour réaliser la génétique d’association Modèle Q+K (Yu et al., 2006)

Phénotype = Moyennes ajustées K = Identité par état

Pas de structure

Var(u) = Kσ²_Aavec K = n x n matrice de variance-covariance entre les individus tient compte de la covariance entre les individus du à

l’apparentement; σ²_A variance génétique additive; Z = matrice pour les effets aléatoires

Var(e) = Iσ²_e avec σ²_e variance résiduelle

Modèles ajustés avec la library Asreml sous R

Phénotype = µ + αM + βQ + Zu + e

GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013) => Manhatan plot

Vgt2

673 & 96 markers associés après correction pour test multiples FDR vs correction bonferonni

Modèle: Q+K Phénotype = µ + αM + βQ + Zu + e

144

GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013: Interpréter l’association

Annotation fonctionelle du génome: Quel est le gène le + proche de #25? => 5kbp de Zcn8

GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013: Interpréter l’association

Annotation fonctionelle du génome: Quel est le gène le + proche de #25? => 5kbp de Zcn8

~ Effet sur la précocité de floraison 108GDD (~9.7 jours)

~ 5kbp de Zcn8 (fait partie des 25 gènes identifiés comme homologues à des gènes impliqués dans la précocité de floraison chez Arabidopsis)

~ Gène très fortement différencié FST = 0.71

EF SSS CBD Tropical

Temperate Dent

Selected (Phen., red) expanded (Hun, Ital)

Etendre les panels d’association pour accroitre la

Dans le document La génétique d’association chez les végétaux: De la théorie à la pratique (Page 119-146)

ASSOCIATIONS IDENTIFIES PAR TRANSGENESE OU PAR BACKCROSS CAR RISQUE DE FAUX POSITIFS

L’exemple de Dwarf8 &amp; Vgt1 chez le maïs…