L’exemple de Dwarf8 & Vgt1 chez le maïs…
ASSOCIATIONS IDENTIFIES PAR TRANSGENESE OU PAR BACKCROSS CAR RISQUE DE FAUX POSITIFS
120
Vgt1 (Salvi et al., 2002, 2005, 2007)
1) Analyse QTL / MetaQTL (Salvi et al., 2002)
Vgt1 (Salvi et al., 2005)
122
Vgt1 (Ducrocq et al., 2008)
Vgt1 (Ducrocq et al., 2008)
Etude de « Vgt1 » dans le panel d’association S1P9 (Ducrocq et al., 2008)
124
ETUDES D’ASSOCIATION SUR LA
PRECOCITE DE FLORAISON CHEZ LE MAÏS
De l’approche gène candidat aux études
« whole genome » (GWAS)
Le dispositif expérimental: S1P9
Panel de diversité de maïs S1P9 - 375 lignées
Données de génotypage
Puce 50 000 SNPs (Ganal et al., 2011) à 336 lignées
à 45 497 marqueurs utilisables
Données de phénotypage : 9 environnements (lieu x année)
à 365 lignées à 3 caractères :
- Floraison mâle - Floraison femelle
- Intervalle floraison mâle - floraison femelle (ASI)
126
INTRODUCTION
Le dispositif expérimental: La puce 50K SNPs
⇒ 57838 SNPs
⇒ 24 lignées par lame
⇒ 120-150€ par lignée (<0.005€ par point de génotypage)
Plusieurs source de SNPs:
40430 SNPs <= reséquençage d’un panel de large diversité => 27 lignées (Gore et al., 2009)
14810 SNPs <= comparaison de séquence cDNA Mo17 vs B73
2008 SNPs <= comparaison de séquence d’EST F2 vs B73 (P. Montalent, J. Joets et al.)
590 SNPs provenant de SNPs présents dans les bases de données
INTRODUCTION
Le dispositif expérimental: La puce 50K SNPs
Distribution des SNPs le long du génome du maïs après élimination des 8553 SNPs de mauvaise
qualité:
⇒ ~1 SNP / 50kbp (génome du maïs ~ 2.5Gb) mais forte variation
⇒ ~17500 gènes contiennent un SNPs ou plus (~33000 SNPs dans les gènes)
⇒ ~16000 SNPs dans les régions intergéniques
128
INTRODUCTION
Le dispositif expérimental: La puce 50K SNPs
SNP 1
Le dispositif expérimental: Principe de la puce 50K SNPs
BB
AB
Génotypage d’un SNP A/B sur un ensemble de lignées de maïs
Line 1
Line 2
Line 3
Intensité de fluorescence
X normalisé
Y normalisé
Normalisation
AA AB
BB
130
Filtrer sur la qualité des données => Etablir une stratégie et des seuils
Etape 1:Filtrer les locus avec une mauvaise qualité
basé sur les mesure qualité illumina (GCscore…)
=> 8253 SNPs eliminated
Etape 2:Filtrer les locus sur leur taux de données manquantes (>20%) et d’hétérozygotie (>15%)
Etape 4: Filtrer les lignées sur leur taux de données manquantes (>10%) et d’hétérozygotie (>5%)
=> 29 lignées eliminés
Panel S1P9
375 lignées 49585 SNPs
Etape 5: Eliminer les locus non polymorphes X SNPs éliminés
365 lignées 375 lignées
336 lignées
336 lignées 45615 SNPs
Etape 3:Filtrer les lignées non conformes d’après SSR et analyse de similarité
=> 10 lignées éliminés
Analyse de diversité: Distribution des fréquences alléliques
MAIS Deux sources de SNPs (Syngenta / Panzea) avec des propriétés differentes
Tous les SNPs
Les SNPs Panzea
Découverts avec 25 lignées
Les SNPs Syngenta
Découverts avec 2 lignées
Minor allele frequency (MAF)
132
Analyse de diversité: Plusieurs méthodes de calcul des matrice d’apparentements (kinship)
Deux matrices d’apparentement sont calculées: 1) l’identité par état = (IBS) 2) une identité par état pondérée par la diversité et
par les fréquences alléliques (IBS corrigé)
IBS simple
IBS corrigé (Loiselle)
Analyse de diversité: Comparaison des distances interindividuelles pour les deux méthodes
Gamme de variation plus élevée pour IBS corrigé / IBS simple mais bonne corrélation entre les deux matrices
134
Analyse de diversité: Le choix d’un jeu de SNPs peut avoir des conséquences fortes sur le calcul des apparentements
Biais de découverte des SNPs dans les SNPs syngenta (maximise les distances entre les lignées proche de Mo17/B73)
Seuls les SNPs Panzea doivent être utilisés pour les analyses de diversité
Loiselle IBS simple
Analyse de diversité: Le choix d’un jeu de SNPs peut avoir des conséquences fortes sur le calcul des distances
Les lignées Mo17 et B73 se retrouvent plus distants avec les SNPs syngenta
qu’avec les SNPs panzea même avec
l’IBS corrigé
136
Corrélation des matrices d’apparentements: SSR vs SNPs
Comparaison des matrices d’apparentements entre les lignées du panel S1P9 obtenues avec les SSR et avec les SNPs
Panzea
Analyse de la structuration du panel avec les SNPs panzea
Comparaison de la structure du panel S1P9 obtenus sur 55SSR et avec les SNPs Panzea avec le logiciel Structure et
« admixture » (Alexander et al., 2009)
138
Analyse de diversité: Distribution des fréquences alléliques pour les SNPs Panzea
139
Analyse de l’étendue du déséquilibre de liaison
r2 corrigé de la structure et de l’apparentement (Mangin et al., 2012): library LDcorSV dans R
⇒ Permet d’estimer correctement le r2 utile dans le cadre d’un modèle mixte Q+K Phénotype = µ + αM + βQ + Zu + e
140
Analyse de l’étendue du déséquilibre de liaison
r2 corrigé de la structure et de l’apparentement (Mangin et al., 2012): library LDcorSV dans R
⇒ Permet d’estimer correctement le r2 utile dans le cadre d’un modèle mixte Q+K Phénotype = µ + αM + βQ + Zu + e
La densité de marqueurs avec la puce 50K est insuffisante compte tenu du DL pour identifier l’ensemble des
polymorphismes responsables par génétique d’association a: mk nec.
pour r²=0.1
GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013)
Test de la spécification du modèle: Uniformité des p.value Test des différentes matrices Q et K
Phénotype = µ + αM + e Modèle Simple
Modèle Q
Phénotype = µ + αM + βQ + e Modèle Q+K
Phénotype = µ + αM + βQ + Zu + e
142
Modèle utilisé pour réaliser la génétique d’association Modèle Q+K (Yu et al., 2006)
Phénotype = Moyennes ajustées K = Identité par état
Pas de structure
Var(u) = Kσ2A avec K = n x n matrice de variance-covariance entre les individus tient compte de la covariance entre les individus du à
l’apparentement; σ2A variance génétique additive; Z = matrice pour les effets aléatoires
Var(e) = Iσ2e avec σ2e variance résiduelle
Modèles ajustés avec la library Asreml sous R
Phénotype = µ + αM + βQ + Zu + e
GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013) => Manhatan plot
Vgt2
673 & 96 markers associés après correction pour test multiples FDR vs correction bonferonni
Modèle: Q+K Phénotype = µ + αM + βQ + Zu + e
144
GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013: Interpréter l’association
Annotation fonctionelle du génome: Quel est le gène le + proche de #25? => 5kbp de Zcn8
GWAS sur le premier panel d’association (S1P9) avec la puce 50K (Bouchet et al., 2013: Interpréter l’association
Annotation fonctionelle du génome: Quel est le gène le + proche de #25? => 5kbp de Zcn8
~ Effet sur la précocité de floraison 108GDD (~9.7 jours)
~ 5kbp de Zcn8 (fait partie des 25 gènes identifiés comme homologues à des gènes impliqués dans la précocité de floraison chez Arabidopsis)
~ Gène très fortement différencié FST = 0.71
EF SSS CBD Tropical
Temperate Dent
Selected (Phen., red) expanded (Hun, Ital)