1
La génétique d’association chez les végétaux:
De la théorie à la pratique
21 octobre 2016 UE Master 2 Génomes
Stéphane Nicolas, Alain Charcosset
INRA, UMR Génétique Quantitative et Evolution – Le Moulon
snicolas@moulon.inra.fr, charcos@moulon.inra.fr
Enjeux et objec,fs des recherches
Mieux valoriser la diversité génétique en vue de la création de nouvelles variétés adaptées à l’évolution des besoins et
contraintes environnementales
2. Déterminisme des
caractères quantitatifs : complexité (nombre de locus), nature des effets
1. Caractériser la diversité génétique des
ressources génétiques au matériel moderne : structure des populations et déséquilibre de liaison
3. Développement et évaluation de méthodes et stratégies de sélection, intégrant les
avancées technologiques et des connaissances sur les déterminismes
Équipe GQMS – Géné,que Quan,ta,ve et Méthodologie de la sélec,on
PLAN DU COURS
I. Introduction : une brève histoire de la sélection végétale
II. Quelques rappels sur les concepts clés de la génétique d’association
III. Des exemples d’études d’association sur la précocité de floraison chez le maïs: Une
étude « Whole Genome Scan » et « Gène candidat »
IV. Ce qu’il faut retenir
4
Phase 1. De la domestication au 19eme
Rq. La domestication des grandes céréales a été effectuée de façon indépendante mais relativement synchrone
Phase 1
La domestication représente la
première étape de la sélection, avec
l’identification de
plantes appropriées à la culture et
l’utilisation par l’homme
Chez les céréales, l’utilisation d’une partie de la récolte pour produire les
semences de culture suivante conduit de fait à une sélection (élimination des épis malades, insuffisamment mûrs, etc.), dite
« massale »
Conduit souvent à une diversification importante liée à différents usages, conditions de culture, etc.
Phase 2
6
Sélection massale
→ Très efficace pour des caractères fortement héritables (ex. précocité de floraison, résistances à des maladies, qualité)
Troyer (1995)
→ Peu efficace pour des caractères faiblement héritables, notamment la productivité
Ex. des rendements du maïs aux USA (fort
investissement de
laboratoires publiques)
Phase 1 : bilan
Phase 2
=héritabilité
INTRODUCTION: facteurs du progrès génétique
=héritabilité
8
Essor de la sélection moderne au 19eme et 20eme siècles : Un programme type de
sélection du blé
Source : GNIS Evaluation multilocale
Choix de parents, croisement
F1: toutes les plantes sont identiques
F2: ségrégation, choix des plantes et autofécondation
Ear row
F3: choix de plantes intéressantes au sein des familles retenues
F4: choix de familles et sélection pour l’homogénéité
F5 à F8:
poursuite de la sélection et évaluation du rendement
Histoire de la sélection du maïs
9
Invention des hybrides
Chez le maïs, l’application de ces méthodes aux USA conduit à une très forte dépression de
consanguinité
-> Shull et East (1908) imaginent de tester non pas des lignées directement mais des hybrides entre lignées
Au-delà de prévenir la consanguinité, les hybrides permettent de combiner des adaptations environnementales
Lignée 1 Hybride Lignée 2 Histoire de la sélection du maïs
10
ü pour un essai (dans un champ), les « bruits » lié aux effets micro-environnementaux de chaque plante se compensent quand on considère la moyenne de leur famille -> plus grande précision dans l’évaluation de la valeur génétique
ü possibilité d’expérimenter dans différents environnements ->
plus de conditions rencontrées, plus représentatives des
différentes conditions susceptibles d’être rencontrées par les variétés pendant leur culture à grande échelle
La mécanisation des expérimentation a permis une mise en œuvre à très grande échelle (millions de « micro-parcelles » chaque année), donc une forte intensité de sélection, facteur important du progrès (avec la rapidité des cycles, la variation et
l’héritabilité des caractères)
Intérêt de l’évaluation de familles de plantes relativement à une selection sur les
performances individuelles
Histoire de la sélection du maïs
INTRODUCTION: facteurs du progrès génétique
=héritabilité
Troyer (1995)
Contribution aux gains de productivité (échelle nationale)
Histoire de la sélection du maïs
Evolution du rendement en France (J.
Lorgeou, synthèse base Agreste)
maïs blé Histoire de la sélection du maïs
Le progrès génétique sur le rendement ne s’est pas fait au détriment de la tolérance à la sécheresse
-> les variétés modernes ne sont pas que des « formules 1 »
Welcker et al , unp
Variétés de maïs cultivées en France (Welcker)
Histoire de la sélection du maïs
15
Quelles limites ?
ü caractères difficiles à mesurer (certaines maladies)
ü conditions environnementales extrêmes et peu fréquentes
peu de chances de survenir dans la phase de sélection et peuvent conduire à des fortes baisses de productivité -> risque d’accident si toutes les conditions
environnementales possibles n’ont pas été rencontrées dans les phases de sélection
ü Difficulté d’utiliser des sources de variabilité « non élite »
Histoire de la sélection du maïs
16
-> Mieux comprendre le déterminisme génétique des caractères d’intérêt pour mieux sélectionner et exploiter la diversité génétique
Qu’est-ce qui détermine a ?
Aux aléas d’échantillonnage près, si M est causal lui-même et varie indépendamment des autres QTL (pas de DL entre eux), a est l’effet biologique de M
Principe de base d ’ étude de la relation entre polymorphisme moléculaire et variation
phénotypique
18
Parent 2 Parent 1
x
Allèle à un site
« fonctionnel »
Population naturelle (Croisement non contrôlé / parent inconnu / relation de
parenté inconnu / force évolutive) Génétique d’association
(Déséquilibre de liaison) Population de cartographie
(Croisement contrôlé / Parent et relation de parenté connu)
Approche QTL (Analyse de liaison)
Cardon & Bell 2000
à Intervalle de confiance large autour de l’allèle fonctionnel = Résolution faible
à Intervalle de confiance faible autour de l’allèle fonctionnel = Résolution forte
Comment identifier les déterminants génétiques des variations phénotypiques?
x
x xx x
n générations
F1
HD
x x
xx
x
xx xx xx xx Ind1
Ind2 Ind3 Ind4
x
xx xxx
x x
Fenêtre de DL dûe aux événements de recombinaison
Qu’est ce qui a changé? La révolution du génotypage et séquençage haut débit
1) Séquençage de génome de référence chez les plantes
2) Apparition récente de technologies de découverte de
polymorphismes haut débit (NGS) et de génotypage (Puce, Genotyping By Sequencing, …)
Bolger et al., 2014
=> Baisse drastique du coût du séquençage et du
génotypage en 10 ans
20
INTRODUCTION: Qu’est ce qui a changé? La révolution du génotypage et séquençage haut débit
Coût du séquençage par Mb
$0
$1 000
$2 000
$3 000
$4 000
$5 000
$6 000
sept-01 sept-02 sept-03 sept-04 sept-05 sept-06 sept-07 sept-08 sept-09 sept-10 sept-11 sept-12 sept-13
Source NHRI
Coût du séquençage par génome (3Gb / 20X)
$0
$20 000 000
$40 000 000
$60 000 000
$80 000 000
$100 000 000
$120 000 000
sept-01 sept-02 sept-03 sept-04 sept-05 sept-06 sept-07 sept-08 sept-09 sept-10 sept-11 sept-12 sept-13
$0
$1
$1
$2
$2
$3
$3
$4
$4
oct-08 avr-09 oct-09 avr-10 oct-10 avr-11 oct-11 avr-12 oct-12 avr-13 oct-13
Coût du séquençage par Mbp
Exploration de la diversité génétique le long du
génome sur un grand nombre d’individus
Qu’est ce qui a changé? La révolution du génotypage et séquençage haut débit
Exemple chez le maïs:
1. Génome de référence séquencé (Schnable et al., 2009)
2. Découverte des SNPs par NGS sur un panel de diversité (Gore et al., 2009, Chia et al., 2012) => Librairies d’haplotype «
HAPMAP »
3. Technologie de génotypage haut débit
a. Illumina Infinium 50 kSNPs (Ganal et al., 2011) ~120€ / ech b. Axiom Affymetrix 600 kSNPs (2013) ~ 200€ / ech
c. « Genotyping by Sequencing » 600 kSNPs (Elshire et al., 2009; Romay et al., 2013) ~20€ / ech
=> Baisse drastique du coût du point de génotypage en
trois ans (de 0.005€ à <0.0005€ / ech / SNPs)
Qu ’ est ce qui a changé? La révolution du génotypage et séquençage haut débit
Derniers devis : 7 X genome entier pour 200 Euros -> la bioinformatique est un métier d’avenir
22
PLAN DU COURS
I. Une brève introduction
II. Concepts clés de la génétique d’association III. Des exemples d’études d’association sur la
précocité de floraison chez le maïs: Une étude « Whole Genome Scan » et « Gène candidat »
IV. Ce qu’il faut retenir
24
LES CONCEPTS CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION
1. Finalité et objectif
2. La génétique d’association repose sur le déséquilibre de liaison
3. La dynamique du déséquilibre de liaison 4. Le modèle fondamental de la génétique
d’association
5. Le problème des tests multiples 6. Revenons au phénotype
LES CONCEPTS CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION
1. Finalité et objectif
2. La génétique d’association repose sur le déséquilibre de liaison
3. La dynamique du déséquilibre de liaison 4. Le modèle fondamental de la génétique
d’association
5. Le problème des tests multiples 6. Revenons au phénotype
26
Finalité de la génétique d’association
Identifier des polymorphismes responsables d’une variation qualitative/quantitative d’un
caractère d’intérêt au sein de populations
présentant une large diversité
Objectif de la génétique d’association
Adapté de Rafalski and Morgante (2004)
Associer du polymorphisme de séquence aux variations phénotypiques au sein de populations de large diversité Chromosome
Polymorphisme responsable de la
NP
Ind1 Ind2 Ind3 Ind4 Ind5 Ind6 Ind7 Ind8 Ind9 Ind10
28
LES CONCEPTS CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION
1. Finalité et objectif
2. La génétique d’association repose sur le déséquilibre de liaison
3. La dynamique du déséquilibre de liaison 4. Le modèle fondamental de la génétique
d’association
5. Le problème des tests multiples 6. Revenons au phénotype
Les polymorphismes sont associés de façon non aléatoire au sein du génome
SNP
Lignée
SNP SNP
Lignée
SNP SNP
Lignée
SNP
lignées
30
La génétique d’association repose sur le déséquilibre de liaison
Adapté de Rafalski and Morgante (2004)
Haplotype 1
Haplotype 2
Polymorphisme responsable de la variation du caractère « taille de
l’épis »
Chromosome
Ind1 Ind2 Ind3 Ind4 Ind5 Ind6 Ind7 Ind8 Ind9 Ind10
Ces SNPs sont en DL complet avec le
polymorphisme responsable de la taille de l’épis
NP
La génétique d’association repose sur le déséquilibre de liaison: Définition et Mesures
DL = Association non aléatoire entre des allèles à des locus différents au sein d’une population
p(B)
p(b)
p(A) p(a)
Locus A
Locus B
p(AB) p(aB)
p(ab) p(Ab)
EQUILIBRE
D=P(AB)-p(A)p(B)
D D
p(B)
p(b)
p(A) p(a)
p(Ab)
p(AB) p(aB)
p(ab) Locus A
Locus B
DESEQUILIBRE
32
La génétique d’association repose sur le déséquilibre de liaison = Définition et Mesures
D = P(AB)-p(A)p(B)
Valeur dépendante des fréquences alléliquesr² = D²
P
AP
aP
BP
bD’ D
MaxIDI
=
Des comportements différents:
R2 le plus utilisé en recherche d’association
La génétique d’association repose sur le déséquilibre de liaison
Comment les marqueurs moléculaires sont utilisées pour
identifier les gènes impliqués dans la variation phénotypique
34 34
Lien entre le r
2et la génétique d’association
Génotype MQ Mq mQ Mq
Moyenne
phénotypique c+a c c+a c Moyenne phéno au marqueur M
DL entre M et Q fréquence
génotypique fMQ fMq fmQ fmq YM Ym D r Pas de DL 0.25 0.25 0.25 0.25 c+a/2 c+a/2 0 0
DL complet 0.5 0 0 0.5 c+a c 0.25 1
DL moyen 0.4 0.1 0.1 0.4 c+0.8a c+0.2a 0.15 0.6 Marqueur
M/m
QTL Q/q
r
Phénotype Y
m M
YM
Ym
SNP QTL avec effet a
q = c Q = c+a YQ- Yq = a
La génétique d’association repose sur le déséquilibre de
liaison
36
La génétique d’association repose sur le déséquilibre de liaison
D’après Dillman, 2013
LES CONCEPT CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION
1. Finalité et objectif
2. La génétique d’association repose sur le déséquilibre de liaison
3. La dynamique du déséquilibre de liaison 4. Le modèle fondamental de la génétique
d’association
5. Le problème des tests multiples 6. Revenons au phénotype
38
Dynamique du DL: Comment le DL apparaît et disparaît?
(mutation et recombinaison)
Temps
Les mutations créent de nouveaux « haplotypes » et sont en
déséquilibre de liaison avec les polymorphismes des locus adjacents Ces polymorphismes auront tendance à être maintenu ensemble avec
cette mutation si la recombinaison est faible
Dynamique du DL: Comment le DL apparaît et disparaît?
(mutation et recombinaison)
Flint-Garcia et al. (2003)
1 0 0 00
1 0 0 00
0 0 1 0 00
0 0 1 0 01
0 0 1 0 01
0 0 0 0 10
0 0 0 0 10 1
1 0 00 a
d
a b c d ef ...
b
c
e f
% malade
m 12 8 6 2 1 3 0
Haplotypes
1
La mutation est stochastique
40
Dynamique du DL: Dans une population idéale, la persistance du DL dépend uniquement du taux de recombinaison
PAR CONTRE dans une population idéale:
• Taille infinie
• Pas de mutation et de sélection
• Reproduction au hasard des individus
La persistance du DL sera d’autant plus forte que les locus sont liés
La genèse du déséquilibre ne dépend pas de la liaison génétique
Ø on peut avoir D > 0 alors que θ=1/2 (pas de liaison) Ø et D = 0 alors que θ <1/2 (liaison)
1
(1 ) (1 )
t 0t t
D
+= − c D = − c D
Dynamique du DL: Dans une population idéale, la persistance du DL dépend uniquement du taux de recombinaison
0 0.05 0.1 0.15 0.2 0.25 0.3
0 10 20 30 40 50
Générations
Déséquilibre
θ=0.00
θ=0.05 θ=0.01
θ=0.10 θ=0.50
Le DL entre les allèles à différents locus est maintenu uniquement si le taux de recombinaison local est faible!
=> On s’attend à ce que seul les locus « très liés » soit en
• Reproduction au hasard des individus (panmixie)
• Taille de population infinie
• Pas de mutation et de sélection
42
Dynamique du DL: Dans une population idéale, la persistance du DL dépend uniquement du taux de recombinaison
Mais pas de la même façon dans tout le génome
Remington et al. 2001
Le DL décroît avec la distance physique
Flint-Garcia et al. (2003)
Les événements de recombinaison ne sont pas distribués au hasard dans le génome
La fréquence de recombinaison varie le long du génome…
L’étendue du DL varie le long du génome
globalement en fonction du taux de recombinaison
Ganal et al., 2011
Giraud et al., 2012
44 Genetic distance between loci (cM)
Linkage disequilibriumr2K
Physical distance between loci (bp)
Linkage disequilibriumr2K
A B
Conséquence : La relation avec le DL est plus nette pour la distance génétique que pour la distance
physique (S. Negro, in prep.)
Dynamique du DL: Les événements de recombinaison ne sont pas distribués au hasard dans le génome
Il y a des points chauds de recombinaison!
Le DL est structuré en blocs haplotypiques
Blocs haplotypiques
Afro-américains Européens
Gabriel et al., 2002
65% du génome est en bloc de >10 kb chez Afr 85% du génome est en bloc de >10 kb chez Eur
46
Dynamique du DL: Le DL est structuré en blocs haplotypiques
La structure et l’étendue du DL peut varier d’une
population à l’autre (histoire évolutive et démographique)
Wall et Pritchard, AJHG 2003
Gabriel et al., 2002
47
Comment le DL apparaît et disparaît (mutation et recombinaison)
1 0 0 0 0
1 0 0 0 0
0 0 1 0 0 0
0 0 1 0 0 1
0 0 1 0 0 1
0 0 0 0 1 0
0 0 0 0 1 0 1
1 0 0 0 a
d
a b c d e f ...
b
c
e f
% malade
m 12 8 6 2 1 3 0
Haplotypes
h1 h2 h3 h4 h5 1 Haplotypes actuels
Dynamique du DL: Origine des blocs haplotypiques
Haplotypes Haplotypes
ancestraux K=3 h1 h2 h3
Haplotype ancestraux K=3
Haplotypes ancestraux K=2
Haplotypes
actuels Blocs
haplotypiques : Segments chromosomiques hérités d'ancêtres
communs,
desquels est issue la population
actuelle
48 48
Modélisation de l’identité par descendance locale
Les individus partagent de larges régions identiques par descendance plus ou moins fortement selon les groupes génétiques
Modéliser le déséquilibre pour identifier les haplotypes ancestraux (Sheet et Stephens, 2000)
49
Dynamique du DL: Le DL est structuré en blocs haplotypiques
La structure du DL détermine la résolution maximale de détection dans une population
Rafalski & Morgante (2004)
Quelques marqueurs / bloc pour détecter les association => Notion
de tagSNP
Haplotype
TagSNP
Rafalski, 2002
(a) (b)
Facteur causal
50
Dans un cas simple : absence de structuration, un seul
facteur causal localement
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La démographie
En population de taille finie (Sved, 1971)
Le DL se maintient si la taille efficace de la population est faible Le DL s’accroît si la taille efficace de la population diminue et décroît si elle diminue
Ne=« taille efficace » (démographie)
c = taux de recombinaison entre les sites c=rlocd
rloc = taux de recombinaison local/pb d = distance entre sites (pb)
E(r
2) =
1+4N
ec 1
L’histoire démographique d’une population
détermine en partie le patron de DL
52
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La démographie
En population de taille finie => dérive génétique
E(r
2) =
1+4N
ec 1
Effet régime de reproduction
Effet consanguinité / autofécondation à Taille efficace: Ne = N / (1+F)
à Recombinaison efficace: re = r(1-F)
DL attendu plus élevé dans espèces autogames /
allogames
DL attendu plus élevé dans les variétés modernes /
domestiquées / sauvages
Effet goulot d’étranglement
à Taille efficace
à Recombinaison efficace
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La démographie
Effet de l’histoire démographique – goulot d’étranglement du à la domestication puis la sélection humaine…
Rafalski and Morgante (2004)
Espèce Origine
Distance physique pour avoir une réduction moyenne
de 0.2 de DL entre locus
Mais
Cultivars élites > 100kb
Lignées ~1-2kb
Landraces (RG) ~200pb
Tenaillon et al. (2001)
54
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La sélection
La sélection entraîne une augmentation locale du DL et de la longueur des blocs haplotypiques par effet « d’autostop
génétique »
Une nouvelle mutation avatangeuse
apparaît
La mutation va augmenter en fréquence, entrainant
les sites liés et réduisant la variabilité
dans la région + augmentation du DL
Au cours du temps, la diversité se régénère, les premières mutations
apparaissent et sont en fréquence faible.
à excès de mutations rares
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La sélection
Rafalski & Morgante (2004)
Les gènes de « domestication » sont soumis à une sélection positive extrêmement forte
=> tb1 chez le maïs
Wang et al.(1999)
56
Les événements de recombinaison ne sont pas distribués au hasard dans le génome
La sélection entraîne une augmentation locale du DL et une perte de diversité
Giraud et al., 2012
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La sélection
Su1
57
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La structuration génétique
Mélange de populations ayant des fréquences alléliques différentes
La structuration crée du DL entre des locus non liés physiquement => RISQUE DE DETECTER DE
FAUSSES ASSOCIATIONS
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La structuration génétique
La structuration crée du DL entre des locus non liés physiquement => RISQUE DE DETECTER DE
FAUSSES ASSOCIATIONS
D’après Dillman, 2013
• Par exemple, chez l’homme, si on utilise un panel constitué de suédois et d’éthiopiens, beaucoup de SNP seront associés à la couleur de peau, des yeux ou des cheveux. Pourtant, très peu seront réellement causaux (ou très proches de facteurs causaux).
… la structure de population peut être un piège
majeur pour les études d’association
60
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La structuration génétique
Un échantillon donné N’A PAS de structuration génétique si tous ses individus SE REPRODUISENT AU HASARD entre eux (PANMIXIE)
La répartition des allèles est aléatoire dans
l’échantillon
Une population donnée A une structuration génétique si ses individus NE SE REPRODUISENT AU HASARD entre eux => groupes génétiques
La répartition des allèles n’est plus aléatoire mais corrélée aux groupes génétiques
D’après Letizia, 2007
Mettre en évidence l’association statistique entre
phénotype et génotype: Le problème des la structuration
Origine de la structuration génétique
Structure (modèle en ile)
Structure (isolement)
Histoire évolutive et démographique des espèces
62
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La structuration génétique
Déséquilibre de liaison à longue distance en ignorant la structure
Une plus forte migration diminue le DL Une plus forte migration diminue le DL
Ce qui intéresse le généticien, c’est le DL causé par la liaison physique entre deux allèles, pas celui lié à la structuration des populations
La structuration génétique génèrent de fausses associations
D’après Dillman
LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La structuration génétique
Origine de la structuration génétique
Columbus, 1493
<1539
1800 -‐8700
-‐1900
-‐4440 -‐5500 -‐2100
-‐4500
-‐5300 -‐7300
-‐7800 -‐7500 -‐4000
-‐1350
-‐4700 Southwestern US
North Mexico
Guatemala & Southern Mexico North South Americans
Major expansions Domestication center
Genetic groups of cultivated corn
Recent hybridizations
v
Tenaillon and Manicacci 2011
Northern Flints Corn Belt Dents
Caribbean European Flints
European Northern Flints
Sourthern Spain Mexican Highlands Mexican Lowlands
Italians
v
v
South American Lowlands
64
Mettre en évidence l’association statistique entre
phénotype et génotype: Le problème des la structuration
Caractérisation de la structuration génétique
Dubreuil et al. 1996
-1.93 -0.77
0.38 1.53
AXIS1
-1.34
0.12
1.58 3.04
AXIS2 -1.49
0.17 1.83 3.49 AXIS3
Cornées européennes
Dentées Américaines
Analyse multivariée (PcoA)
Coordonnées des individus sur les axes d'ACP
Ø Groupes connus à priori (Origine géographique, génétique)
Mettre en évidence l’association statistique entre
phénotype et génotype: Le problème de la structuration
Caractérisation de la structuration génétique
Inférence bayésienne de la Structure
Ø Inférence de la structure de la population et assignation des individus aux groupes: Structure (Pritchard et al. 2000), Admixture (Alexander et al.
2009)
Reconstitution de population en équilibre de Hardy-
Weinberg
Répartition probabiliste des individus dans k populations
(Proportions d’admixture ou Probabilité d'appartenance à une population) Portion du
génome issue des populations
1, 2 et 3
Individus
Pop1 Pop2Pop3 Pop1 Pop2Pop3
66
La tomate cerise correspond à différents degrés
d’admixture entre le génome de la tomate cultivée et de la tomate sauvage.
Exemple: Analyse de la structuration chez la tomate
Caractérisation de la structuration génétique
Ranc et al 2008
67
Exemple: Analyse de la structuration génétique dans la collection de vigne du domaine de Vassal
K=8 K=7 K=6 K=5
K=4
K=3
K=2
100 individus
200 individus EST OUEST
T C
Utilisation:
Cuve Ouest Cuve Est Table Est
C
Famille d’individus apparentés
Origines
géographiques = Centres de
diversification
68
Mettre en évidence l’association statistique entre phénotype et génotype: Le problème de la structuration
Cuve est Table est
Cuve Ouest
QUEL EFFET SUR LES CARACTERES? Exemple du poids de la baie chez la vigne
Le caractère poids de la baie est structuré au sein de la population
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
0-1 1-1.5 1.5-2
2-2.5 2.5-3
3-3.5 3.5-4
4-4.5 4.5-5
5-5.5 5.5-6
6-6.5 6.5-7
7-7.5 7.5-8
8-8.5 8.5-9 > 9
Poids moyen de la baie en gramme
% des accessions
Tout
Cuve Est (3p1) Table Est (3p2) Cuve Ouest (3p3)
0 1 2 3 4 5 6 7
Table Est Cuve Est Cuve Ouest
Poids moyen des baies
70
L’exemple de Dwarf8 chez le mais…
Effet de la structure sur le DL dans un panel d’association chez le maïs
Etude de l’étendue du DL avec la mesure r2 classique et le r2 corrigé de la structure (Mangin et al., 2012) dans le panel S1P9 (Bouchet et al., 2013)
Suppression du DL entre des locus indépendants et longue distance avec prise en compte de la structure
L’exemple de Dwarf8 chez le mais…
Effet de la structure sur le DL dans un panel d’association chez le maïs
Analyse de l’étendue du DL dans le panel S1P9 (Bouchet et al., 2013)
L’étendue du DL est réduite lorsque l’on prend en compte la structure
72
La génétique d’association repose sur le déséquilibre de liaison: Effet de l’étendue et de la structure du DL
Ø L’étendue moyenne du DL détermine la densité de marqueur à utiliser pour détecter une association
Ø La structure du DL local détermine la résolution des recherches d’associations
DL très étendu DL étendu
Rafalski & Morgante (2004)
faible densité de marqueurs faible résolution
forte densité de marqueurs forte résolution
LES CONCEPT CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION
1. Finalité et objectif
2. La génétique d’association repose sur le déséquilibre de liaison
3. La dynamique du déséquilibre de liaison 4. Le modèle fondamental de la génétique
d’association
5. Le problème des tests multiples 6. Revenons au phénotype
74
Le modèle fondamental de la génétique d’association
Phénotype
i= αMarqueur
i+ e
iMarqueur 2
A
Taille épis
G
µ
Gµ
ATaille épis
Marqueur 1
A G
µ
Gµ
A Δ interindividuelle=> Test statistique µG = µA (ANOVA…)
Quelques rappels sur les test statistiques
Réalité H0 vrai = Le
marqueur n’est pas associé à la variation
phénotypique
H0 est faux = Le marqueur est associé
Test
Accepter
H0 cohérent β (Taux de faux négatif)
Rejeter H0
α
(Taux de faux positif)
1-β (Puissance du test)
Hypothèse H0 = Il n’y a pas d’association entre le marqueur et la variation phénotypique
Le modèle fondamental de la génétique d’association:
Quelques rappels sur les tests statistiques
76
Effet
Seuil de risquePas d’effet
Erreur de type I = Risque de dire qu’il y a une
association alors qu’il n’y en a pas
=> Faux positifs
Erreur de type II = Risque de dire qu’il n’y a pas
d’association alors qu’il y en a
=> Faux négatifs
Quel type de risque souhaitez vous contrôler?
Quels risque êtes vous prêt à prendre?
=> Choix de l’utilisateur
Le modèle fondamental de la génétique d’association:
Quelques rappels sur les tests statistiques
Le modèle fondamental de la génétique d’association:
Quelques rappels sur les tests statistiques
Phénotype
i= αMarqueur
i+ e
iM1 M2 M3 M4 M5 M6
M7 M8 M9 M10 M11 M12
M13 M14 M15 M16 M17 M18
Génotype individus 1
M1 M2 M3 M4 M5 M6
M7 M8 M9 M10 M11 M12
M13 M14 M15 M16 M17 M18
Génotype individus 2
M1 M2 M3 M4 M5 M6
M7 M8 M9 M10 M11 M12
M13 M14 M15 M16 M17 M18
Génotype individus 3
Génotype individus n
….
M1 M2 M3 M4 M5 M6
M7 M8 M9 M10 M11 M12
M13 M14 M15 M16 M17 M18
Dans une étude d’association genome-wide, l’association Génotype-Phénotype va être testé des milliers de fois Sous l’hypothèse H0 (pas d’association), les p.value de ces
test multiples sont uniformément distribués entre 0 et 1
78
Le principe de correction pour les test multiples
Sous l’hypothèse H0, la distribution des p.value pour l’ensemble des tests est uniforme entre 0 et 1!
Le modèle fondamental de la génétique d’association
Distribution des p.value attendue sous H0
⇒ A regarder absolument!
⇒ Attention, la non uniformité peut aussi
avoir une origine biologique…
Le problème des tests multiples
Dans une étude d’association genome-wide,
l’association Génotype-Phénotype va être testé des milliers de fois
-> Risque de détecter une « fausse » association croît avec le nombre de marqueurs testés
80
Le principe de correction pour les test multiples
Le modèle fondamental de la génétique d’association:
Vers le modèle mixte de Yu et al., 2006
Origine de la non uniformité des p.value (Excès de p.value significatives) Ø Mauvaise spécification du modèle
Ø Dépendance forte entre les tests
Ø Approximation dans le modèle mixte
(Yu et al. 2006)
Phénotype = µ + αM + e Simple
Sous H0, la distribution des p.value pour l’ensemble des tests est attendu uniforme entre 0 et 1!
Ø Excès de faibles p-value (association significative)
Ø 38% des SNPs ont une p.value inférieur à 5% vs 5% attendus
Le principe de correction pour les test multiples
Sous H0, la distribution des p.value pour l’ensemble des tests est attendu uniforme entre 0 et 1!
Le modèle fondamental de la génétique d’association:
Vers le modèle mixte
Phénotype = µ + αM + e Modèle Simple
Modèle Q
Phénotype = µ + αM + βQ + e
Ø Excès de faibles p-value (association significative)
Ø 14% des SNPs ont une p.value inférieur à 5% vs 5% attendus Hypothèse iid
Résidus indépendants (décorrélés entre eux) et identiquement
82
Le principe de correction pour les test multiples
Sous H0, la distribution des p.value pour l’ensemble des tests est attendu uniforme entre 0 et 1!
Le modèle fondamental de la génétique d’association:
Le modèle mixte en action
Phénotype = µ + αM + e Modèle Simple
Modèle Q
Phénotype = µ + αM + βQ + e Modèle Q+K
Phénotype = µ + αM + βQ + Zu + e
Modèles Simple Q K Q+K GC
Nb de SNPs avec une pvalue <5%
38% 15% 6% 6% 5%
Le principe de correction pour les test multiples
La correction de l’inflation des faux positifs due à la
stratification (structure + apparentement) varient selon les caractères étudiés
Le modèle fondamental de la génétique d’association:
Structure et apparentement
Pourquoi?
Précocité de floraison Taille de l’épis Diamètre de l’épis
84
Construction et étude de la structuration du panel d’association S1P9 de maïs avec 55SSR avec le logiciel structure (Camus-K, 2006)
Mettre en évidence l’association statistique entre phénotype et génotype: Exemple du panel d’association S1P9 chez le maïs
La structuration explique respectivement 40% (lignées de premier cycles), 50% (375 lignées), à 70% (landraces) de la
variation de la précocité de floraison
Group FFLW8
NF 762.14 (±41) EF 762.85 (±35) SS 942.54 (±73) CBD 888.84 (±23) Trop 1180.85 (±33)
L’exemple de Dwarf8 chez le mais…
Le modèle fondamental de la génétique d’association:
Structure et apparentement
Pourquoi une « kinship »?
Pour tenir compte de la covariance entre des phénotypes entre les individus due à leur apparentement
Les individus ont hérités d’ancêtres communs une proportion d’allèles plus ou moins grande (de façon
non aléatoire) expliquant une part de la variation phénotypique en dehors de la région étudiée (fond
polygénique commun)
Comment estimer cet apparentement?
On veut estimer l’identité par descendance entre individus 1) Méthodes basées sur la connaissance du pédigrée
2) Méthodes basées sur les marqueurs moléculaires
86
L’exemple de Dwarf8 chez le mais…
Le modèle fondamental de la génétique d’association:
Structure et apparentement
Les méthodes d’estimation de l’apparentement basées sur des marqueurs moléculaires
Ø L’identité par état = % d’allèles partagées entre les individus (contraint entre 0 et 1 et sdp)
Pour les SNPs:
Ø Ce qu’on veut estimer, c’est la probabilité d’identité par
descendance (= probabilité que les allèles des individus i et j pris au hasard dérivent d’un ancêtre commun), pas l’identité par état
Différentes méthodes existent pour estimer l’identité par descendance
(xl = vecteur du nombre de doses d’un des deux allèles : 0, 1, 2 pour les individus)
L’exemple de Dwarf8 chez le mais…
Le modèle fondamental de la génétique d’association:
Structure et apparentement
Plus de poids au locus avec des allèles
« rares »
Plus de poids aux partage de l’allèle rare
Hypothèse: Partager des allèles rares est plus informatif sur la parenté que des allèles fréquents car les allèles rares dérivent de mutations plus récentes
Ø Loiselle (1995) (non contraint entre 0 et 1 et non sdp)
Attention au codage des SNPs
SNP codé 0,1,2 SNP codé 0,0.5,1
=
Attention à l’écriture (vectoriel vs indiciel)
88
L’exemple de Dwarf8 chez le mais…
Le modèle fondamental de la génétique d’association:
Structure et apparentement
Ø WAIS (Meanhout et al., 2009)
Principe: La probabilité d’être identique par état mais pas par descendance à chaque locus est estimé en utilisant une autre
populations d’individus non apparentées => Contraint entre 0 et 1 et sdp
Ø Maximum de vraisemblance (Thompson, 1975)
Intensif en temps de calcul => contraint entre 0 et 1 et sdp
Ø Méthode des moments (Milligan et al., 2003)
Efficient en temps de calcul mais non biaisé uniquement si allèle ancestral connu => contraint entre 0 et 1 et sdp
Ø Autres méthodes …
Implémenté dans différents logiciels (Spagedi, Cocoa, plink…) ou package R (GenAbel, adegenet…)
L’exemple de Dwarf8 chez le mais…
Le modèle fondamental de la génétique d’association:
Structure et apparentement
Pourquoi une « kinship » et la structure?
Kinship = Pour tenir compte de la covariance entre des
phénotypes entre les individus due à leur apparentement Structure = Pour tenir compte de la corrélation entre la
variation des fréquences alléliques « du à la dérive » et la variation phénotypique entre les populations
+ (dans une moindre mesure)
Les individus d’une même population ont plus de chance de partager des allèles dérivant d’ancêtres communs et
responsable d’une variation phénotypique
Cf excellente revue par Astle and Balding (Stat Science, 2009)
90
Le modèle fondamental de la génétique d’association:
Structure et apparentement
Yu and Buckler, 2006
LES CONCEPT CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION
1. Finalité et objectif
2. La génétique d’association repose sur le déséquilibre de liaison
3. La dynamique du déséquilibre de liaison 4. Le modèle fondamental de la génétique
d’association
5. Le problème des tests multiples 6. Revenons au phénotype