La génétique d’association chez les végétaux: De la théorie à la pratique

(1)

1

La génétique d’association chez les végétaux:

De la théorie à la pratique

21 octobre 2016 UE Master 2 Génomes

Stéphane Nicolas, Alain Charcosset

INRA, UMR Génétique Quantitative et Evolution – Le Moulon

snicolas@moulon.inra.fr, charcos@moulon.inra.fr

(2)

Enjeux et objec,fs des recherches

Mieux valoriser la diversité génétique en vue de la création de nouvelles variétés adaptées à l’évolution des besoins et

contraintes environnementales

2. Déterminisme des

caractères quantitatifs : complexité (nombre de locus), nature des effets

1. Caractériser la diversité génétique des

ressources génétiques au matériel moderne : structure des populations et déséquilibre de liaison

3. Développement et évaluation de méthodes et stratégies de sélection, intégrant les

avancées technologiques et des connaissances sur les déterminismes

Équipe GQMS – Géné,que Quan,ta,ve et Méthodologie de la sélec,on

(3)

PLAN DU COURS

I.  Introduction : une brève histoire de la sélection végétale

II.  Quelques rappels sur les concepts clés de la génétique d’association

III.  Des exemples d’études d’association sur la précocité de floraison chez le maïs: Une

étude « Whole Genome Scan » et « Gène candidat »

IV.  Ce qu’il faut retenir

(4)

4

Phase 1. De la domestication au 19eme

Rq. La domestication des grandes céréales a été effectuée de façon indépendante mais relativement synchrone

Phase 1

(5)

La domestication représente la

première étape de la sélection, avec

l’identification de

plantes appropriées à la culture et

l’utilisation par l’homme

Chez les céréales, l’utilisation d’une partie de la récolte pour produire les

semences de culture suivante conduit de fait à une sélection (élimination des épis malades, insuffisamment mûrs, etc.), dite

« massale »

Conduit souvent à une diversification importante liée à différents usages, conditions de culture, etc.

Phase 2

(6)

6

Sélection massale

→ Très efficace pour des caractères fortement héritables (ex. précocité de floraison, résistances à des maladies, qualité)

Troyer (1995)

→ Peu efficace pour des caractères faiblement héritables, notamment la productivité

Ex. des rendements du maïs aux USA (fort

investissement de

laboratoires publiques)

Phase 1 : bilan

Phase 2

=héritabilité

(7)

INTRODUCTION: facteurs du progrès génétique

=héritabilité

(8)

8

Essor de la sélection moderne au 19eme et 20eme siècles : Un programme type de

sélection du blé

Source : GNIS Evaluation multilocale

Choix de parents, croisement

F1: toutes les plantes sont identiques

F2: ségrégation, choix des plantes et autofécondation

Ear row

F3: choix de plantes intéressantes au sein des familles retenues

F4: choix de familles et sélection pour l’homogénéité

F5 à F8:

poursuite de la sélection et évaluation du rendement

Histoire de la sélection du maïs

(9)

9

Invention des hybrides

Chez le maïs, l’application de ces méthodes aux USA conduit à une très forte dépression de

consanguinité

-> Shull et East (1908) imaginent de tester non pas des lignées directement mais des hybrides entre lignées

Au-delà de prévenir la consanguinité, les hybrides permettent de combiner des adaptations environnementales

Lignée 1 Hybride Lignée 2 Histoire de la sélection du maïs

(10)

10

ü  pour un essai (dans un champ), les « bruits » lié aux effets micro-environnementaux de chaque plante se compensent quand on considère la moyenne de leur famille -> plus grande précision dans l’évaluation de la valeur génétique

ü  possibilité d’expérimenter dans différents environnements ->

plus de conditions rencontrées, plus représentatives des

différentes conditions susceptibles d’être rencontrées par les variétés pendant leur culture à grande échelle

La mécanisation des expérimentation a permis une mise en œuvre à très grande échelle (millions de « micro-parcelles » chaque année), donc une forte intensité de sélection, facteur important du progrès (avec la rapidité des cycles, la variation et

l’héritabilité des caractères)

Intérêt de l’évaluation de familles de plantes relativement à une selection sur les

performances individuelles

(11)

INTRODUCTION: facteurs du progrès génétique

=héritabilité

(12)

Troyer (1995)

Contribution aux gains de productivité (échelle nationale)

(13)

Evolution du rendement en France (J.

Lorgeou, synthèse base Agreste)

maïs blé Histoire de la sélection du maïs

(14)

Le progrès génétique sur le rendement ne s’est pas fait au détriment de la tolérance à la sécheresse

-> les variétés modernes ne sont pas que des « formules 1 »

Welcker et al , unp

Variétés de maïs cultivées en France (Welcker)

(15)

15

Quelles limites ?

ü  caractères difficiles à mesurer (certaines maladies)

ü  conditions environnementales extrêmes et peu fréquentes

peu de chances de survenir dans la phase de sélection et peuvent conduire à des fortes baisses de productivité -> risque d’accident si toutes les conditions

environnementales possibles n’ont pas été rencontrées dans les phases de sélection

ü  Difficulté d’utiliser des sources de variabilité « non élite »

(16)

16

-> Mieux comprendre le déterminisme génétique des caractères d’intérêt pour mieux sélectionner et exploiter la diversité génétique

(17)

Qu’est-ce qui détermine a ?

Aux aléas d’échantillonnage près, si M est causal lui-même et varie indépendamment des autres QTL (pas de DL entre eux), a est l’effet biologique de M

Principe de base d ’ étude de la relation entre polymorphisme moléculaire et variation

phénotypique

(18)

18

Parent 2 Parent 1

x

Allèle à un site

« fonctionnel »

Population naturelle (Croisement non contrôlé / parent inconnu / relation de

parenté inconnu / force évolutive) Génétique d’association

(Déséquilibre de liaison) Population de cartographie

(Croisement contrôlé / Parent et relation de parenté connu)

Approche QTL (Analyse de liaison)

Cardon & Bell 2000

à Intervalle de confiance large autour de l’allèle fonctionnel = Résolution faible

à Intervalle de confiance faible autour de l’allèle fonctionnel = Résolution forte

Comment identifier les déterminants génétiques des variations phénotypiques?

x

x xx x

n générations

F1

HD

x x

xx

x

xx xx xx xx Ind1

Ind2 Ind3 Ind4

x

xx xxx

x x

Fenêtre de DL dûe aux événements de recombinaison

(19)

Qu’est ce qui a changé? La révolution du génotypage et séquençage haut débit

1)  Séquençage de génome de référence chez les plantes

2)  Apparition récente de technologies de découverte de

polymorphismes haut débit (NGS) et de génotypage (Puce, Genotyping By Sequencing, …)

Bolger et al., 2014

=> Baisse drastique du coût du séquençage et du

génotypage en 10 ans

(20)

20

INTRODUCTION: Qu’est ce qui a changé? La révolution du génotypage et séquençage haut débit

Coût du séquençage par Mb

$0

$1 000

$2 000

$3 000

$4 000

$5 000

$6 000

sept-01 sept-02 sept-03 sept-04 sept-05 sept-06 sept-07 sept-08 sept-09 sept-10 sept-11 sept-12 sept-13

Source NHRI

Coût du séquençage par génome (3Gb / 20X)

$0

$20 000 000

$40 000 000

$60 000 000

$80 000 000

$100 000 000

$120 000 000

sept-01 sept-02 sept-03 sept-04 sept-05 sept-06 sept-07 sept-08 sept-09 sept-10 sept-11 sept-12 sept-13

$0

$1

$2

$3

$4

oct-08 avr-09 oct-09 avr-10 oct-10 avr-11 oct-11 avr-12 oct-12 avr-13 oct-13

Coût du séquençage par Mbp

Exploration de la diversité génétique le long du

génome sur un grand nombre d’individus

(21)

Qu’est ce qui a changé? La révolution du génotypage et séquençage haut débit

Exemple chez le maïs:

1.  Génome de référence séquencé (Schnable et al., 2009)

2.  Découverte des SNPs par NGS sur un panel de diversité (Gore et al., 2009, Chia et al., 2012) => Librairies d’haplotype «

HAPMAP »

3.  Technologie de génotypage haut débit

a.  Illumina Infinium 50 kSNPs (Ganal et al., 2011) ~120€ / ech b.  Axiom Affymetrix 600 kSNPs (2013) ~ 200€ / ech

c.  « Genotyping by Sequencing » 600 kSNPs (Elshire et al., 2009; Romay et al., 2013) ~20€ / ech

=> Baisse drastique du coût du point de génotypage en

trois ans (de 0.005€ à <0.0005€ / ech / SNPs)

(22)

Qu ’ est ce qui a changé? La révolution du génotypage et séquençage haut débit

Derniers devis : 7 X genome entier pour 200 Euros -> la bioinformatique est un métier d’avenir

22

(23)

PLAN DU COURS

I.  Une brève introduction

II.  Concepts clés de la génétique d’association III.  Des exemples d’études d’association sur la

précocité de floraison chez le maïs: Une étude « Whole Genome Scan » et « Gène candidat »

IV.  Ce qu’il faut retenir

(24)

24

LES CONCEPTS CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION

1.  Finalité et objectif

2.  La génétique d’association repose sur le déséquilibre de liaison

3.  La dynamique du déséquilibre de liaison 4.  Le modèle fondamental de la génétique

d’association

5.  Le problème des tests multiples 6.  Revenons au phénotype

(25)

LES CONCEPTS CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION

d’association

(26)

26

Finalité de la génétique d’association

Identifier des polymorphismes responsables d’une variation qualitative/quantitative d’un

caractère d’intérêt au sein de populations

présentant une large diversité

(27)

Objectif de la génétique d’association

Adapté de Rafalski and Morgante (2004)

Associer du polymorphisme de séquence aux variations phénotypiques au sein de populations de large diversité Chromosome

Polymorphisme responsable de la

NP

Ind1 Ind2 Ind3 Ind4 Ind5 Ind6 Ind7 Ind8 Ind9 Ind10

(28)

28

LES CONCEPTS CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION

d’association

(29)

Les polymorphismes sont associés de façon non aléatoire au sein du génome

SNP

Lignée

SNP SNP

Lignée

SNP SNP

Lignée

SNP

lignées

(30)

30

La génétique d’association repose sur le déséquilibre de liaison

Adapté de Rafalski and Morgante (2004)

Haplotype 1

Haplotype 2

Polymorphisme responsable de la variation du caractère « taille de

l’épis »

Chromosome

Ind1 Ind2 Ind3 Ind4 Ind5 Ind6 Ind7 Ind8 Ind9 Ind10

Ces SNPs sont en DL complet avec le

polymorphisme responsable de la taille de l’épis

NP

(31)

La génétique d’association repose sur le déséquilibre de liaison: Définition et Mesures

DL = Association non aléatoire entre des allèles à des locus différents au sein d’une population

p(B)

p(b)

p(A) p(a)

Locus A

Locus B

p(AB) p(aB)

p(ab) p(Ab)

EQUILIBRE

D=P(AB)-p(A)p(B)

D D

p(B)

p(b)

p(A) p(a)

p(Ab)

p(AB) p(aB)

p(ab) Locus A

Locus B

DESEQUILIBRE

(32)

32

La génétique d’association repose sur le déséquilibre de liaison = Définition et Mesures

D = P(AB)-p(A)p(B)

Valeur dépendante des fréquences alléliques

r² = D²

P

_A

P

_a

P

_B

P

_b

D’ D

MaxIDI

=

Des comportements différents:

R²le plus utilisé en recherche d’association

(33)

La génétique d’association repose sur le déséquilibre de liaison

Comment les marqueurs moléculaires sont utilisées pour

identifier les gènes impliqués dans la variation phénotypique

(34)

34 34

Lien entre le r

²

et la génétique d’association

Génotype MQ Mq mQ Mq

Moyenne

phénotypique c+a c c+a c Moyenne phéno au marqueur M

DL entre M et Q fréquence

génotypique f_MQ f_Mq f_mQ f_mq Y_M Y_m D r Pas de DL 0.25 0.25 0.25 0.25 c+a/2 c+a/2 0 0

DL complet 0.5 0 0 0.5 c+a c 0.25 1

DL moyen 0.4 0.1 0.1 0.4 c+0.8a c+0.2a 0.15 0.6 Marqueur

M/m

QTL Q/q

r

Phénotype Y

m M

YM

Y_m

SNP QTL avec effet a

q = c Q = c+a YQ- Yq = a

(35)

La génétique d’association repose sur le déséquilibre de

liaison

(36)

36

La génétique d’association repose sur le déséquilibre de liaison

D’après Dillman, 2013

(37)

LES CONCEPT CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION

d’association

(38)

38

Dynamique du DL: Comment le DL apparaît et disparaît?

(mutation et recombinaison)

Temps

Les mutations créent de nouveaux « haplotypes » et sont en

déséquilibre de liaison avec les polymorphismes des locus adjacents Ces polymorphismes auront tendance à être maintenu ensemble avec

cette mutation si la recombinaison est faible

(39)

Dynamique du DL: Comment le DL apparaît et disparaît?

(mutation et recombinaison)

Flint-Garcia et al. (2003)

1 0 0 00

0 0 1 0 00

0 0 1 0 01

0 0 0 0 10

0 0 0 0 10 1

1 0 00 a

d

a b c d ef ...

b

c

e f

% malade

m 12 8 6 2 1 3 0

Haplotypes

1

La mutation est stochastique

(40)

40

Dynamique du DL: Dans une population idéale, la persistance du DL dépend uniquement du taux de recombinaison

PAR CONTRE dans une population idéale:

•  Taille infinie

•  Pas de mutation et de sélection

•  Reproduction au hasard des individus

La persistance du DL sera d’autant plus forte que les locus sont liés

La genèse du déséquilibre ne dépend pas de la liaison génétique

Ø on peut avoir D > 0 alors que θ=1/2 (pas de liaison) Ø et D = 0 alors que θ <1/2 (liaison)

1

(1 ) (1 )

^t 0

t t

D

₊

= − c D = − c D

(41)

0 0.05 0.1 0.15 0.2 0.25 0.3

0 10 20 30 40 50

Générations

Déséquilibre

θ=0.00

θ=0.05 θ=0.01

θ=0.10 θ=0.50

Le DL entre les allèles à différents locus est maintenu uniquement si le taux de recombinaison local est faible!

=> On s’attend à ce que seul les locus « très liés » soit en

•  Reproduction au hasard des individus (panmixie)

•  Taille de population infinie

•  Pas de mutation et de sélection

(42)

42

Mais pas de la même façon dans tout le génome

Remington et al. 2001

Le DL décroît avec la distance physique

Flint-Garcia et al. (2003)

(43)

Les événements de recombinaison ne sont pas distribués au hasard dans le génome

La fréquence de recombinaison varie le long du génome…

L’étendue du DL varie le long du génome

globalement en fonction du taux de recombinaison

Ganal et al., 2011

Giraud et al., 2012

(44)

44 Genetic distance between loci (cM)

Linkage disequilibriumr2K

Physical distance between loci (bp)

Linkage disequilibriumr2K

A B

Conséquence : La relation avec le DL est plus nette pour la distance génétique que pour la distance

physique (S. Negro, in prep.)

(45)

Dynamique du DL: Les événements de recombinaison ne sont pas distribués au hasard dans le génome

Il y a des points chauds de recombinaison!

Le DL est structuré en blocs haplotypiques

Blocs haplotypiques

Afro-américains Européens

Gabriel et al., 2002

65% du génome est en bloc de >10 kb chez Afr 85% du génome est en bloc de >10 kb chez Eur

(46)

46

Dynamique du DL: Le DL est structuré en blocs haplotypiques

La structure et l’étendue du DL peut varier d’une

population à l’autre (histoire évolutive et démographique)

Wall et Pritchard, AJHG 2003

Gabriel et al., 2002

(47)

47

Comment le DL apparaît et disparaît (mutation et recombinaison)

1 0 0 0 0

0 0 1 0 0 0

0 0 1 0 0 1

0 0 0 0 1 0

0 0 0 0 1 0 1

1 0 0 0 a

d

a b c d e f ...

b

c

e f

% malade

m 12 8 6 2 1 3 0

Haplotypes

h1 h2 h3 h4 h5 1 Haplotypes actuels

Dynamique du DL: Origine des blocs haplotypiques

Haplotypes Haplotypes

ancestraux K=3 h1 h2 h3

Haplotype ancestraux K=3

Haplotypes ancestraux K=2

Haplotypes

actuels Blocs

haplotypiques : Segments chromosomiques hérités d'ancêtres

communs,

desquels est issue la population

actuelle

(48)

48 48

Modélisation de l’identité par descendance locale

Les individus partagent de larges régions identiques par descendance plus ou moins fortement selon les groupes génétiques

Modéliser le déséquilibre pour identifier les haplotypes ancestraux (Sheet et Stephens, 2000)

(49)

49

Dynamique du DL: Le DL est structuré en blocs haplotypiques

La structure du DL détermine la résolution maximale de détection dans une population

Rafalski & Morgante (2004)

Quelques marqueurs / bloc pour détecter les association => Notion

de tagSNP

Haplotype

TagSNP

(50)

Rafalski, 2002

(a) (b)

Facteur causal

50

Dans un cas simple : absence de structuration, un seul

facteur causal localement

(51)

LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La démographie

En population de taille finie (Sved, 1971)

Le DL se maintient si la taille efficace de la population est faible Le DL s’accroît si la taille efficace de la population diminue et décroît si elle diminue

N_e=« taille efficace » (démographie)

c = taux de recombinaison entre les sites c=r_locd

r_loc= taux de recombinaison local/pb d = distance entre sites (pb)

E(r

₂

) =

1+4N

_e

c 1

L’histoire démographique d’une population

détermine en partie le patron de DL

(52)

52

LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La démographie

En population de taille finie => dérive génétique

E(r

₂

) =

1+4N

_e

c 1

Effet régime de reproduction

Effet consanguinité / autofécondation à Taille efficace: Ne = N / (1+F)

à Recombinaison efficace: re = r(1-F)

DL attendu plus élevé dans espèces autogames /

allogames

DL attendu plus élevé dans les variétés modernes /

domestiquées / sauvages

Effet goulot d’étranglement

à Taille efficace

à Recombinaison efficace

(53)

LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La démographie

Effet de l’histoire démographique – goulot d’étranglement du à la domestication puis la sélection humaine…

Rafalski and Morgante (2004)

Espèce Origine

Distance physique pour avoir une réduction moyenne

de 0.2 de DL entre locus

Mais

Cultivars élites > 100kb

Lignées ~1-2kb

Landraces (RG) ~200pb

Tenaillon et al. (2001)

(54)

54

LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La sélection

La sélection entraîne une augmentation locale du DL et de la longueur des blocs haplotypiques par effet « d’autostop

génétique »

Une nouvelle mutation avatangeuse

apparaît

La mutation va augmenter en fréquence, entrainant

les sites liés et réduisant la variabilité

dans la région + augmentation du DL

Au cours du temps, la diversité se régénère, les premières mutations

apparaissent et sont en fréquence faible.

à excès de mutations rares

(55)

LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La sélection

Les gènes de « domestication » sont soumis à une sélection positive extrêmement forte

=> tb1 chez le maïs

Wang et al.(1999)

(56)

56

Les événements de recombinaison ne sont pas distribués au hasard dans le génome

La sélection entraîne une augmentation locale du DL et une perte de diversité

Giraud et al., 2012

LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La sélection

Su1

(57)

57

LES POPULATIONS IDEALES N’EXISTENT PAS! Les autres facteurs de variations du DL: La structuration génétique

Mélange de populations ayant des fréquences alléliques différentes

La structuration crée du DL entre des locus non liés physiquement => RISQUE DE DETECTER DE

FAUSSES ASSOCIATIONS

(58)

La structuration crée du DL entre des locus non liés physiquement => RISQUE DE DETECTER DE

FAUSSES ASSOCIATIONS

D’après Dillman, 2013

(59)

•  Par exemple, chez l’homme, si on utilise un panel constitué de suédois et d’éthiopiens, beaucoup de SNP seront associés à la couleur de peau, des yeux ou des cheveux. Pourtant, très peu seront réellement causaux (ou très proches de facteurs causaux).

… la structure de population peut être un piège

majeur pour les études d’association

(60)

60

Un échantillon donné N’A PAS de structuration génétique si tous ses individus SE REPRODUISENT AU HASARD entre eux (PANMIXIE)

La répartition des allèles est aléatoire dans

l’échantillon

Une population donnée A une structuration génétique si ses individus NE SE REPRODUISENT AU HASARD entre eux => groupes génétiques

La répartition des allèles n’est plus aléatoire mais corrélée aux groupes génétiques

D’après Letizia, 2007

(61)

Mettre en évidence l’association statistique entre

phénotype et génotype: Le problème des la structuration

Origine de la structuration génétique

Structure (modèle en ile)

Structure (isolement)

Histoire évolutive et démographique des espèces

(62)

62

Déséquilibre de liaison à longue distance en ignorant la structure

Une plus forte migration diminue le DL Une plus forte migration diminue le DL

Ce qui intéresse le généticien, c’est le DL causé par la liaison physique entre deux allèles, pas celui lié à la structuration des populations

La structuration génétique génèrent de fausses associations

D’après Dillman

(63)

Origine de la structuration génétique

Columbus, 1493

<1539

1800 -‐8700

-‐1900

-‐4440 -‐5500 -‐2100

-‐4500

-‐5300 -‐7300

-‐7800 -‐7500 -‐4000

-‐1350

-‐4700 Southwestern US

North Mexico

Guatemala & Southern Mexico North South Americans

Major expansions Domestication center

Genetic groups of cultivated corn

Recent hybridizations

v

Tenaillon and Manicacci 2011

Northern Flints Corn Belt Dents

Caribbean European Flints

European Northern Flints

Sourthern Spain Mexican Highlands Mexican Lowlands

Italians

v

South American Lowlands

(64)

64

Mettre en évidence l’association statistique entre

phénotype et génotype: Le problème des la structuration

Caractérisation de la structuration génétique

Dubreuil et al. 1996

-1.93 -0.77

0.38 1.53

AXIS1

-1.34

0.12

1.58 3.04

AXIS2 -1.49

0.17 1.83 3.49 AXIS3

Cornées européennes

Dentées Américaines

Analyse multivariée (PcoA)

Coordonnées des individus sur les axes d'ACP

Ø  Groupes connus à priori (Origine géographique, génétique)

(65)

Mettre en évidence l’association statistique entre

phénotype et génotype: Le problème de la structuration

Caractérisation de la structuration génétique

Inférence bayésienne de la Structure

Ø  Inférence de la structure de la population et assignation des individus aux groupes: Structure (Pritchard et al. 2000), Admixture (Alexander et al.

2009)

Reconstitution de population en équilibre de Hardy-

Weinberg

Répartition probabiliste des individus dans k populations

(Proportions d’admixture ou Probabilité d'appartenance à une population) Portion du

génome issue des populations

1, 2 et 3

Individus

Pop1 Pop2Pop3 Pop1 Pop2Pop3

(66)

66

La tomate cerise correspond à différents degrés

d’admixture entre le génome de la tomate cultivée et de la tomate sauvage.

Exemple: Analyse de la structuration chez la tomate

Caractérisation de la structuration génétique

Ranc et al 2008

(67)

67

Exemple: Analyse de la structuration génétique dans la collection de vigne du domaine de Vassal

K=8 K=7 K=6 K=5

K=4

K=3

K=2

100 individus

200 individus EST OUEST

T C

Utilisation:

Cuve Ouest Cuve Est Table Est

C

Famille d’individus apparentés

Origines

géographiques = Centres de

diversification

(68)

68

Mettre en évidence l’association statistique entre phénotype et génotype: Le problème de la structuration

Cuve est Table est

Cuve Ouest

(69)

QUEL EFFET SUR LES CARACTERES? Exemple du poids de la baie chez la vigne

Le caractère poids de la baie est structuré au sein de la population

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

0-1 1-1.5 1.5-2

2-2.5 2.5-3

3-3.5 3.5-4

4-4.5 4.5-5

5-5.5 5.5-6

6-6.5 6.5-7

7-7.5 7.5-8

8-8.5 8.5-9 > 9

Poids moyen de la baie en gramme

% des accessions

Tout

Cuve Est (3p1) Table Est (3p2) Cuve Ouest (3p3)

0 1 2 3 4 5 6 7

Table Est Cuve Est Cuve Ouest

Poids moyen des baies

(70)

70

L’exemple de Dwarf8 chez le mais…

Effet de la structure sur le DL dans un panel d’association chez le maïs

Etude de l’étendue du DL avec la mesure r2 classique et le r2 corrigé de la structure (Mangin et al., 2012) dans le panel S1P9 (Bouchet et al., 2013)

Suppression du DL entre des locus indépendants et longue distance avec prise en compte de la structure

(71)

L’exemple de Dwarf8 chez le mais…

Effet de la structure sur le DL dans un panel d’association chez le maïs

Analyse de l’étendue du DL dans le panel S1P9 (Bouchet et al., 2013)

L’étendue du DL est réduite lorsque l’on prend en compte la structure

(72)

72

La génétique d’association repose sur le déséquilibre de liaison: Effet de l’étendue et de la structure du DL

Ø  L’étendue moyenne du DL détermine la densité de marqueur à utiliser pour détecter une association

Ø  La structure du DL local détermine la résolution des recherches d’associations

DL très étendu DL étendu

faible densité de marqueurs faible résolution

forte densité de marqueurs forte résolution

(73)

LES CONCEPT CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION

d’association

(74)

74

Le modèle fondamental de la génétique d’association

Phénotype

_i

= αMarqueur

_i

+ e

_i

Marqueur 2

A

Taille épis

G

µ

_G

µ

_A

Taille épis

Marqueur 1

A G

µ

_G

µ

_A Δ interindividuelle

=> Test statistique µG = µA (ANOVA…)

(75)

Quelques rappels sur les test statistiques

Réalité H0 vrai = Le

marqueur n’est pas associé à la variation

phénotypique

H0 est faux = Le marqueur est associé

Test

Accepter

H0 cohérent β (Taux de faux négatif)

Rejeter H0

α

(Taux de faux positif)

1-β (Puissance du test)

Hypothèse H0 = Il n’y a pas d’association entre le marqueur et la variation phénotypique

Le modèle fondamental de la génétique d’association:

Quelques rappels sur les tests statistiques

(76)

76

Effet

Seuil de risque

Pas d’effet

Erreur de type I = Risque de dire qu’il y a une

association alors qu’il n’y en a pas

=> Faux positifs

Erreur de type II = Risque de dire qu’il n’y a pas

d’association alors qu’il y en a

=> Faux négatifs

Quel type de risque souhaitez vous contrôler?

Quels risque êtes vous prêt à prendre?

=> Choix de l’utilisateur

Le modèle fondamental de la génétique d’association:

Quelques rappels sur les tests statistiques

(77)

Le modèle fondamental de la génétique d’association:

Quelques rappels sur les tests statistiques

Phénotype

_i

= αMarqueur

_i

+ e

_i

M1 M2 M3 M4 M5 M6

M7 M8 M9 M10 M11 M12

M13 M14 M15 M16 M17 M18

Génotype individus 1

M1 M2 M3 M4 M5 M6

M7 M8 M9 M10 M11 M12

M13 M14 M15 M16 M17 M18

M1 M2 M3 M4 M5 M6

M7 M8 M9 M10 M11 M12

M13 M14 M15 M16 M17 M18

Génotype individus n

….

M1 M2 M3 M4 M5 M6

M7 M8 M9 M10 M11 M12

M13 M14 M15 M16 M17 M18

Dans une étude d’association genome-wide, l’association Génotype-Phénotype va être testé des milliers de fois Sous l’hypothèse H0 (pas d’association), les p.value de ces

test multiples sont uniformément distribués entre 0 et 1

(78)

78

Le principe de correction pour les test multiples

Sous l’hypothèse H0, la distribution des p.value pour l’ensemble des tests est uniforme entre 0 et 1!

Le modèle fondamental de la génétique d’association

Distribution des p.value attendue sous H0

⇒  A regarder absolument!

⇒  Attention, la non uniformité peut aussi

avoir une origine biologique…

(79)

Le problème des tests multiples

Dans une étude d’association genome-wide,

l’association Génotype-Phénotype va être testé des milliers de fois

-> Risque de détecter une « fausse » association croît avec le nombre de marqueurs testés

(80)

80

Le principe de correction pour les test multiples

Le modèle fondamental de la génétique d’association:

Vers le modèle mixte de Yu et al., 2006

Origine de la non uniformité des p.value (Excès de p.value significatives) Ø  Mauvaise spécification du modèle

Ø  Dépendance forte entre les tests

Ø  Approximation dans le modèle mixte

(Yu et al. 2006)

Phénotype = µ + αM + e Simple

Sous H0, la distribution des p.value pour l’ensemble des tests est attendu uniforme entre 0 et 1!

Ø  Excès de faibles p-value (association significative)

Ø  38% des SNPs ont une p.value inférieur à 5% vs 5% attendus

(81)

Le principe de correction pour les test multiples

Le modèle fondamental de la génétique d’association:

Vers le modèle mixte

Phénotype = µ + αM + e Modèle Simple

Modèle Q

Phénotype = µ + αM + βQ + e

Ø  Excès de faibles p-value (association significative)

Ø  14% des SNPs ont une p.value inférieur à 5% vs 5% attendus Hypothèse iid

Résidus indépendants (décorrélés entre eux) et identiquement

(82)

82

Le principe de correction pour les test multiples

Le modèle fondamental de la génétique d’association:

Le modèle mixte en action

Phénotype = µ + αM + e Modèle Simple

Modèle Q

Phénotype = µ + αM + βQ + e Modèle Q+K

Phénotype = µ + αM + βQ + Zu + e

Modèles Simple Q K Q+K GC

Nb de SNPs avec une pvalue <5%

38% 15% 6% 6% 5%

(83)

Le principe de correction pour les test multiples

La correction de l’inflation des faux positifs due à la

stratification (structure + apparentement) varient selon les caractères étudiés

Le modèle fondamental de la génétique d’association:

Structure et apparentement

Pourquoi?

Précocité de floraison Taille de l’épis Diamètre de l’épis

(84)

84

Construction et étude de la structuration du panel d’association S1P9 de maïs avec 55SSR avec le logiciel structure (Camus-K, 2006)

Mettre en évidence l’association statistique entre phénotype et génotype: Exemple du panel d’association S1P9 chez le maïs

La structuration explique respectivement 40% (lignées de premier cycles), 50% (375 lignées), à 70% (landraces) de la

variation de la précocité de floraison

Group FFLW8

NF 762.14 (±41) EF 762.85 (±35) SS 942.54 (±73) CBD 888.84 (±23) Trop 1180.85 (±33)

(85)

L’exemple de Dwarf8 chez le mais…

Le modèle fondamental de la génétique d’association:

Structure et apparentement

Pourquoi une « kinship »?

Pour tenir compte de la covariance entre des phénotypes entre les individus due à leur apparentement

Les individus ont hérités d’ancêtres communs une proportion d’allèles plus ou moins grande (de façon

non aléatoire) expliquant une part de la variation phénotypique en dehors de la région étudiée (fond

polygénique commun)

Comment estimer cet apparentement?

On veut estimer l’identité par descendance entre individus 1)  Méthodes basées sur la connaissance du pédigrée

2)  Méthodes basées sur les marqueurs moléculaires

(86)

86

L’exemple de Dwarf8 chez le mais…

Le modèle fondamental de la génétique d’association:

Structure et apparentement

Les méthodes d’estimation de l’apparentement basées sur des marqueurs moléculaires

Ø L’identité par état = % d’allèles partagées entre les individus (contraint entre 0 et 1 et sdp)

Pour les SNPs:

Ø  Ce qu’on veut estimer, c’est la probabilité d’identité par

descendance (= probabilité que les allèles des individus i et j pris au hasard dérivent d’un ancêtre commun), pas l’identité par état

Différentes méthodes existent pour estimer l’identité par descendance

(x_l = vecteur du nombre de doses d’un des deux allèles : 0, 1, 2 pour les individus)

(87)

L’exemple de Dwarf8 chez le mais…

Le modèle fondamental de la génétique d’association:

Structure et apparentement

Plus de poids au locus avec des allèles

« rares »

Plus de poids aux partage de l’allèle rare

Hypothèse: Partager des allèles rares est plus informatif sur la parenté que des allèles fréquents car les allèles rares dérivent de mutations plus récentes

Ø  Loiselle (1995) (non contraint entre 0 et 1 et non sdp)

Attention au codage des SNPs

SNP codé 0,1,2 SNP codé 0,0.5,1

=

Attention à l’écriture (vectoriel vs indiciel)

(88)

88

L’exemple de Dwarf8 chez le mais…

Le modèle fondamental de la génétique d’association:

Structure et apparentement

Ø  WAIS (Meanhout et al., 2009)

Principe: La probabilité d’être identique par état mais pas par descendance à chaque locus est estimé en utilisant une autre

populations d’individus non apparentées => Contraint entre 0 et 1 et sdp

Ø  Maximum de vraisemblance (Thompson, 1975)

Intensif en temps de calcul => contraint entre 0 et 1 et sdp

Ø  Méthode des moments (Milligan et al., 2003)

Efficient en temps de calcul mais non biaisé uniquement si allèle ancestral connu => contraint entre 0 et 1 et sdp

Ø  Autres méthodes …

Implémenté dans différents logiciels (Spagedi, Cocoa, plink…) ou package R (GenAbel, adegenet…)

(89)

L’exemple de Dwarf8 chez le mais…

Le modèle fondamental de la génétique d’association:

Structure et apparentement

Pourquoi une « kinship » et la structure?

Kinship = Pour tenir compte de la covariance entre des

phénotypes entre les individus due à leur apparentement Structure = Pour tenir compte de la corrélation entre la

variation des fréquences alléliques « du à la dérive » et la variation phénotypique entre les populations

+ (dans une moindre mesure)

Les individus d’une même population ont plus de chance de partager des allèles dérivant d’ancêtres communs et

responsable d’une variation phénotypique

Cf excellente revue par Astle and Balding (Stat Science, 2009)

(90)

90

Le modèle fondamental de la génétique d’association:

Structure et apparentement

Yu and Buckler, 2006

(91)

LES CONCEPT CLES POUR COMPRENDRE LA GENETIQUE D’ASSOCIATION

d’association

La génétique d’association chez les végétaux: De la théorie à la pratique