• Aucun résultat trouvé

Chapitre I : Introduction bibliographique

2. Dissection génétique des caractères complexes chez les végétaux

2. Dissection génétique des caractères complexes chez les végétaux

La détection de QTL met en regard la variation quantitative observée d’un caractère avec la

variabilité génétique d’une population, représentée par des marqueurs moléculaires ou

morphologiques balisant une carte génétique ou un génome. Deux approches principales sont utilisées pour élucider le contrôle génétique de caractères complexes : l’analyse de liaison, le

plus souvent basée sur des populations biparentales, et l’analyse d’association basée sur des populations non apparentées.

2.1.Les marqueurs moléculaires

Une grande variété de marqueurs moléculaires a été utilisée durant les vingt dernières années pour les analyses génétiques des caractères complexes. Ces marqueurs présentent un polymorphisme au niveau de l’ADN (variabilité du code génétique dans une séquence

d’ADN) basé sur :

- la présence ou l’absence de sites de restriction (Restriction Fragment Length Polymorphism : RFLP) ;

- la longueur de fragments amplifiés (Amplified Fragment Length Polymorphism : AFLP) ;

- le nombre de séquences répétées en tandem (Single Sequence Repeat : SSR) ; - un nucléotide unique (Single Nucleotide Polymorphism : SNP).

Alors que les trois premiers types de marqueurs présentent souvent plus de deux allèles, les marqueurs SNP sont en général bialléliques. Les marqueurs SNP sont donc moins informatifs, mais ils sont présents en très grand nombre dans le génome. De plus, avec l’évolution rapide

des techniques de séquençage, les marqueurs SNP sont maintenant peu coûteux à développer

et à analyser sur un grand nombre d’individus. Ils représentent donc aujourd’hui les

marqueurs moléculaires les plus couramment utilisés en génétique.

2.2.Analyse de liaison : approche QTL

Depuis une vingtaine d’années, la détection de QTL a été largement menée à l’aide de

populations biparentales en ségrégation. Ces populations, issues de croisement entre deux parents contrastés pour un ou plusieurs caractères d’intérêt, comprennent des populations F2,

d’haploïdes doublés (HD), de lignées recombinantes (Recombinant Inbred Lines : RIL) et de rétrocroisement avec un parent récurrent (backcross : BC) (Figure I.6). Initialement,

lorsqu’un petit nombre de marqueurs était disponible pour couvrir le génome, la détection de

QTL était réalisée marqueur par marqueur. Dans ce cas, il s’agissait de tester si les sous-classes de la population pour un caractère donné, étaient liées à la variation d’allèle du

24

Figure I.7 : Représentation graphique de la statistique LOD score le long d'un chromosome par cartographie d'intervalle, logiciel MultiQTL (extrait de Charmet (2011))

Figure I.8 : Comparaison des méthodes de cartographie d'intervalles simple (SIM) et composite (CIM) : tracé du rapport de vraisemblance (Likewood Ratio) en fonction de la position le long du chromosome (extrait de Charmet (2011)

Figure I.9 : Exemple de représentation graphique de la structure d'une même population avec la méthode (A) logiciel STRUCTURE et (B) ACP sur les marqueurs (package R GAPIT)

L’analyse avec le logiciel STRUCTURE indique deux sous-populations alors que l’ACP ne montre pas de structuration claire de la population étudiée.

25

marqueur (Sax 1923). Une analyse de variance à un facteur (le marqueur) était alors réalisée. Or, si le marqueur n’était pas localisé exactement au QTL, la fréquence de recombinaison

entre le marqueur et le vrai QTL n’était pas prise en compte, conduisant à des biais de détection.

Par la suite, des méthodes basées sur des marqueurs flanquants d’intervalles ont été développées. Les sous-classes de la population ont ainsi été comparées aux allèles des deux marqueurs flanquants, prenant ainsi en compte le taux de recombinaison entre ces deux marqueurs. Il s’agit de la cartographie d’intervalles, utilisant principalement la méthode du maximum de vraisemblance pour estimer la position et l’effet du QTL (Lander and Botstein 1989). La position du QTL est alors fixée et l’espace de variation est exploré pas à pas de manière exhaustive. À chaque pas, le rapport entre la vraisemblance de la présence du QTL et

celle de l’hypothèse nulle sans QTL est calculé. Généralement, on représente graphiquement une fonction logarithmique de ce rapport, le LOD score (Logarithm of Odds), en fonction de la position (Figure I.7). La position la plus probable du QTL est celle qui maximise la vraisemblance du modèle avec le QTL, et donc celle où le LOD score est à son maximum.

L’intervalle de confiance est souvent déterminé autour du maximum lorsque le LOD score est abaissé de 1 par rapport à sa valeur la plus élevée. Toutefois, en utilisant cette méthode, la variance inter-classe comprend toutes les sources de variation non prises en charge par le QTL, y compris les QTL localisés en dehors de l’intervalle exploré.

Des méthodes de composite interval mapping (CIM) se sont alors développées. Elles permettent de mettre en covariables les QTL détectés, pour la suite du scan du génome et se réalisent en deux étapes : (i) une régression multiple de l’ensemble des marqueurs sur le phénotype pour le choix des covariables et (ii) une recherche de QTL pas à pas sur un intervalle par régression linéaire ou par maximum de vraisemblance, après avoir fixé les covariables (Zeng 1994). Ces méthodes permettent à la fois un gain de puissance (détection des QTL ayant des effets plus faibles) et une meilleure précision (intervalles de confiance plus étroits) (Figure I.8).

Cependant ces intervalles restent généralement larges et ne permettent pas le clonage

positionnel et l’identification de gènes candidats. De plus, les effets sont basés uniquement sur le contraste entre les deux allèles parentaux.

26

Figure I.10 : Représentation graphique des résultats d’analyse MLMM de génétique

d'association pour deux SNP causaux simulés (lignes verticale) (extrait de Segura et al. 2012)

Caractère simulé avec une héritabilité de 25 % pour un set de données génotypiques réelles d’Arabidopsis thaliana.

(a) Un scan du génome avec une régression linéaire à un seul marqueur détecte 4 marqueurs significatifs (seuil de détection représenté par la ligne verticale en pointillés) représentés en rouge. La moitié des SNP détectés sont

des faux positifs et l’autre moitié des vrais positifs. Le taux de faux positifs (FDR) est donc de 50 % et la puissance de détection de 100 %.

(b) Un scan du génome avec un modèle mixte (prise en compte de l’apparentement) élimine un faux positif mais aussi un vrai positif. Le FDR est donc similaire (50 %) et la puissance de détection diminue (50 %).

(c) L’ajout du SNP le plus significatif en cofacteur dans le modèle mixte (orange) permet de retrouver le

deuxième SNP causal et d’éliminer le deuxième faux positif. Le FDR est donc à 0 % et le pouvoir de détection à 100 %.

Tableau I.2 : Comparaison des avantages et inconvénients des différents types de populations

pour l’analyse de liaison et/ou d’association (d’après Pascual et al. 2015a)

DL : déséquilibre de liaison

27

Des méthodes de méta-analyse ont été également développées (Goffinet and Gerber 2000), permettant de réduire les intervalles en comparant les résultats de plusieurs études. Les QTL

issus d’études indépendantes (populations et environnements indépendants) sont comparés

grâce à des marqueurs communs entre les différentes cartes, permettant ainsi une réduction de

l’intervalle de confiance et une estimation des positions des QTL indépendants des populations et des environnements étudiés.

2.3.Analyse de déséquilibre de liaison : approche génétique d’association

La construction de populations biparentales pour l’analyse de liaison est souvent longue et

coûteuse. De plus les variations génétiques sont limitées aux différences entre les deux parents de la population d’étude et les évènements de recombinaison limités lors de la construction de la population. Contrairement à la cartographie par intervalle, la génétique

d’association est basée sur le déséquilibre de liaison (DL) entre individus non apparentés

d’une population (Gupta et al. 2014). Cette méthode tire parti des évènements de recombinaison historiques au sein d’une population naturelle pour identifier des marqueurs associés aux variations phénotypiques de caractères quantitatifs. Du fait des évènements de recombinaison plus nombreux, un plus grand nombre de marqueurs est nécessaire pour les représenter. L’essor de la génétique d’association bénéficie donc de la diminution du coût de génotypage à haute densité et du développement des nouvelles méthodes de séquençage (Next-Generation Sequencing : NGS), permettnat le génotypage par séquençage ( Genotyping-By-Sequencing : GBS).

Si la génétique d’association a été développée sur des populations naturelles (individus

indépendants), de telles populations ne sont pas fréquentes chez les espèces cultivées. En effet, les évènements de domestication et de sélection ont fait que les individus étudiés ont souvent des ancêtres communs. La variation d’un caractère peut donc parfois être liée à la

présence de sous-populations ou d’apparentements entre les individus. Afin de s’affranchir de

ces biais, les méthodes de génétique d’association prennent généralement en compte une matrice de structure de la population (Q) et une matrice d’apparentement entre les individus

(K) comme cofacteurs dans l’analyse (Gupta et al. 2014). D’ordinaire, la structure de la population (matrice Q) peut être décrite par deux types de paramètres : (i) le nombre de sous-populations et la probabilité d’appartenance des individus à une sous-population, estimés avec le logiciel STRUCTURE ou (ii) les coordonnées des individus sur un certain nombre de

composantes principales issues d’une ACP (Analyse en composantes principales). Les deux méthodes d’analyse de la structure sont réalisées à partir de données de génotypage des

28

Figure I.11 : Exemples de construction de populations multi-parentales

(A) population biparentales connectées, d’après Bardol et al. (2013) ;

(B) population NAM chez le maïs à partir de 25 lignées parentales et une lignée de référence (B73), d’après Wallace et al. (2014) ;

29

individus pour des marqueurs pris au hasard dans la matrice de génotypage et répartis sur

l’ensemble du génome. Si la méthode STRUCTURE (Pritchard et al. 2000) a été couramment utilisée, elle a également souvent été remise en question car elle surestimerait le nombre de sous-populations sous certaines conditions (Figure I.9). Quoi qu’il en soit, ces deux méthodes

ne sont pas efficaces pour capturer la structure des populations complexes. Il est donc courant

d’associer à la matrice Q, une matrice d’apparentement entre les individus, ou matrice de

Kinship (K). L’analyse de l’association marqueur-phénotype est alors réalisée en utilisant un modèle linéaire mixte (MLM, (Yu et al. 2006)) : Y = Xα + Qβ + Ku + ε, avec Y le phénotype, X les allèles au marqueur, l’effet fixe du locus, Q, la matrice de structure, β l’effet fixe de la population, K la matrice d’apparentement, u l’effet aléatoire de l’apparentement et ε la résiduelle.

Sur le même principe que le CIM en cartographie par intervalle, Segura et al. (2012) ont récemment développé un modèle multilocus (Multilocus Linear Mixed Model : MLMM) qui prend en compte la structure et l’apparentement de la population mais inclus également une méthode de sélection de marqueurs significatifs en tant que co-facteurs par régression forward

et backward. Cette méthode prend en compte l’effet de confusion potentiel des locus du fonds génétique en raison du DL. Elle permet à la fois de supprimer des marqueurs faux positifs (dus à un déséquilibre de liaison entre les marqueurs) et faux négatifs (effet faible masqué par un autre marqueur à effet fort), et d’augmenter la puissance de détection (Figure I.10). Certains modèles multi-caractères ont également été développés (Gupta et al. 2014) mais aucun permettant une analyse à la fois multi-locus et multi-caractères simultanément.

2.4.LD-LA : approche mixte

Récemment, des méthodes d’analyse mixte de liaison et d’association, nommées joint linkage association mapping (JLAM) ou LD-LA (Linkage Disequilibrium-Linkage Analysis), se sont développées à partir de populations multi-parentales. Ces méthodes présentent l’intérêt de tirer parti des avantages des approches de liaison et d’association, incluant notamment la connaissance de la structuration des populations, la prise en compte d’événements de

recombinaison anciens et récents et la détection des allèles rares (Tableau I.2). Les populations multi-parentales utilisées par cette approche peuvent inclure (i) des populations biparentales connectées, partageant des parents communs, (ii) des populations NAM (Nested Association Mapping) composées de RIL issues de croisements entre une lignée parentale

commune et plusieurs lignées parentales d’origines diversifiées et (iii) des populations

MAGIC (Multi-parent Advanced Generation Inter-Cross), dans lesquelles des croisements sont réalisés entre parents deux à deux, puis entre descendants, afin de mélanger au maximum