• Aucun résultat trouvé

Étude de la résistance à la pourriture à sclérotes chez le soja canadien

N/A
N/A
Protected

Academic year: 2021

Partager "Étude de la résistance à la pourriture à sclérotes chez le soja canadien"

Copied!
81
0
0

Texte intégral

(1)

© Chiheb Boudhrioua, 2019

Étude de la résistance à la pourriture à sclérotes chez le

soja canadien

Mémoire

Chiheb Boudhrioua

Maîtrise en biologie végétale - avec mémoire

Maître ès sciences (M. Sc.)

(2)

II

Résumé

La pourriture à sclérotes (Sclerotinia sclerotiorum) est l’une des maladies les plus importantes du soja qui cause des dégâts considérables au Canada en absence de lignées complètement résistantes. Grâce à la sélection génomique, il est possible de développer des lignées et cultivars dotés d’une résistance accrue à cet ascomycète. Mais avant tout, il est nécessaire d’identifier les régions génomiques responsables de la résistance, pour orienter les choix des sélectionneurs en ce qui a trait aux parents à employer pour les croisements, de même que pour pratiquer une sélection accélérée à l’aide de marqueurs moléculaires. Dans la présente étude, nous avons réalisé une étude d’association pangénomique (ou GWAS, de l’anglais Genome-Wide Association Study) pour identifier deslocus de caractère quantitatif (QTL) contribuant à la résistance partielle rencontrée chez le matériel canadien. Nous avons génotypé 127 lignées, évaluées précédemment pour la résistance à la pourriture à sclérotes, avec près de 1,5M de marqueurs SNP de haute qualité. Ce catalogue offre une couverture exhaustive du génome et l’opportunité d’explorer des régions qui n’avaient pas bénéficié d’une couverture complète en marqueurs lors d’études précédentes. Cette analyse a permis d’identifier un nouveau QTL sur le chromosome 1 Gm01 où l’allèle de résistance entraîne une réduction de la longueur des lésions sur la tige de 29 mm. Pour valider ce QTL, les descendants issus d’un croisement biparental entre deux lignées contrastées pour ce marqueur ont été génotypés puis évalués pour la résistance. Les résultats montrent que les individus porteurs de l’allèle de résistance à ce QTL ont développé des lésions 43 mm plus courtes, soit une réduction de 48 % par rapport aux descendants porteurs de l’allèle de sensibilité. Ces résultats suggèrent que ce QTL constitue un candidat prometteur pour développer des lignées de soja affichant une plus grande résistance à la pourriture à sclérotes.

(3)

III

Abstract

Sclerotinia stem rot (SSR) (Sclerotinia sclerotiorum) is one of the most important soybean diseases causing considerable damage in Canada in the absence of fully resistant lines. Thanks to genomic selection, it is possible to develop lines with increased resistance to this ascomycota. But first, it is necessary to identify the genomic regions responsible for resistance, to guide breeders' choices regarding parents to be used for crosses, as well as to inform selection with the help of molecular markers. In this study, we conducted a genome-wide association study (GWAS) to identify quantitative trait loci (QTL) of partial resistance in Canadian material. We genotyped 127 lines, previously evaluated for SSR resistance, with close to 1.5M high-quality SNPs. This catalog offers extensive genome coverage and the opportunity to explore areas that were incompletely covered in previous studies. This analysis identified a new QTL on chromosome 1 Gm 01 where the resistant allele reduced lesion length on the stem by 29 mm. To validate this QTL, the descendants of a cross between two lines carrying contrasted alleles for Gm01 were genotyped and then evaluated for resistance. The results show that individuals carrying the resistance allele developed lesions that were 43 mm shorter, a reduction of 48% compared to those bearing the sensitivity allele. These results suggest that this QTL is a promising candidate for developing soybean lines with enhanced resistance to SSR.

(4)

IV

Table de matières

Résumé ...II Abstract ...III Liste des tableaux... VI Liste des figures ... VII Liste d’abréviations ... VIII Avant-propos ... X Introduction générale ...1 I. REVUE BIBLIOGRAPHIQUE ... 4 1.1 La pourriture à sclérotes ...5 1.1.1 Taxonomie ...5 1.1.2 Hôtes ...6 1.1.3 Dégâts ...6 1.1.4 Symptômes ...6 1.1.5 Cycle infectieux ...8 1.1.6 Mécanisme d’infection ...9

1.2 La résistance chez le soja ... 10

1.2.1 Méthodes d’évaluation ... 11

1.2.2 Déterminisme génétique de la résistance ... 13

1.3 Les marqueurs moléculaires ... 14

1.3.1 Types des marqueurs moléculaires ... 14

1.3.2 Technologies de génotypage à haut débit des SNP ... 15

Les puces à ADN... 16

Le GBS ... 16

1.4 Approches de cartographie QTL ... 19

1.4.1 Cartographie par intervalle ... 19

1.4.2 Cartographie par association pangénomique ... 20

Déséquilibre de liaison ... 21

La structure de la population ... 22

Hypothèses et objectifs ... 24

II. GENOME-WIDE ASSOCIATION MAPPING OF SCLEROTINIA SCLEROTIORUM RESISTANCE IN SOYBEAN USING WHOLE-GENOME RESEQUENCING DATA ... 25

Abstract ... 27

(5)

V

Introduction ... 29

2.1 Materials and Methods ... 32

2.1.1 Association mapping panel ... 32

2.1.2 Validation panel ... 33

2.1.3 Phenotyping ... 33

2.1.4 SNP genotyping and imputation ... 34

2.1.5 Analysis of population structure ... 35

2.1.6 Genome-wide association analysis ... 35

2.1.7 QTL validation ... 36

2.1.8 Genomic landscape around the peak SNP ... 37

2.2 Results ... 37

2.2.1 SSR resistance in lines of the association panel ... 37

2.2.2 Marker distribution ... 38

2.2.3 Population structure and kinship ... 38

2.2.4 Genome-wide association mapping for SSR resistance ... 39

2.2.5 Validation experiment ... 39

2.2.6 Candidate genes near the peak SNP on Gm01 ... 40

2.3 Discussion ... 41

2.3.1 Number of markers ... 41

2.3.2 New QTL on Gm01 ... 42

2.3.3 QTL validation ... 44

2.3.4 QTL detection efficiency and potential uses in genomic selection ... 45

2.3.5 The genomic landscape around the QTL on Gm01 ... 46

2.4 References ... 47

Conclusions ... 64

(6)

VI

Liste des tableaux

Chapitre I - Tableau 1. Classification taxonomique de Sclerotinia sclerotiorum (Lib.) de Bary ... 5 Chapter II - Table 1. Responses of 127 soybean lines (mean lesion length, mm) to SSR,

seven days after inoculation with strain RB5 of S. sclerotiorum. Lines used for WGS are indicated. ... 51 Chapter II -Table 2. Genes in LD with the peak SNP at position 5,594,597 on Gm01 and

their predicted function. ... 54 Chapter II - Table 3. Characteristics of the markers most highly associated (peak SNPs)

with lesion length resulting from inoculation with strain RB5 of S. sclerotiorum in a panel of 127 Canadian soybean lines. ... 55 Chapter II - Supp Table 1 Marker distribution among the 12 chromosomes………...56

(7)

VII

Liste des figures

Chapitre I – Figure 1. Signes et symptômes de la pourriture à sclérotes A) La tige infectée avec des sclérotes à la surface B) Plante entière flétrie au champ ... 7 Chapitre I - Figure 2. Cycle infectieux de la pourriture à sclérotes. Adaptée d’une figure

publiée par Iowa State University Agronomy Development lab. Cité par Rojas (2014) ... 9 Chapitre I - Figure 3. Évaluation de la résistance à la pourriture à sclérotes avec la

méthode du coton. (A) Fleur enrobée avec un coton trempé dans une suspension du mycélium (B) La lésion développée sur la tige d’une lignée sensible 7 jours après l’inoculation (C) La lésion développée sur la tige d’une lignée partiellement résistante 7 jours après l’inoculation (Bastien et al., 2014) ... 12 Chapitre I – Figure 4. Étapes de la détection des marqueurs par une approche GBS ... 18 Chapitre I - Figure 5. Le diagramme de Manhattan d’une analyse d'association

pangénomique. Les valeurs – log10 (p) représentées sur l’axe des Y sont en fonction de la position physique de chaque marqueur SNP sur l’axe des X. Le seuil de

signification est indiqué par la ligne horizontale. (Bastien et al., 2014) ... 21 Chapter II - Figure 1. Distribution of mean lesion length observed seven days after

inoculation among 127 soybean lines. ... 57 Chapter II - Figure 2. Structure plot for the 127 Canadian soybean based on 84,708

SNPs. ... 58 Chapter II - Figure 3. Manhattan plot of genome-wide association scan for Sclerotinia

stem rot (SSR) resistance in soybean using 1,493,960 SNPs. The horizontal line indicates the significance threshold (FDR = 0.1). ... 59 Chapter II - Figure 4. Lesion length distribution across the 127 Canadian soybean lines

used for GWAS according to alleles at the peak marker at position 5,594,597 on Gm01. ... 60 Chapter II - Figure 5. Average lesion length among RILs fixed for either the resistance or

susceptible allele at the QTL on Gm01 (Standard error is indicated). ... 61 Chapter II - Figure 6. LD plot for the region between 5.4 and 5.8 Mb on Gm01. Black

arrows show the positions of first and the last significantly associated SNP on GM01 and the red arrow shows the position of the peak associated SNP ... 62 Chapter II Supp Figure 1. Neighbor-joining tree for the 127 lines based on 84,708 SNPs………...63

(8)

VIII

Liste d’abréviations

ADN : Acide désoxyribonucléique

AFLP : Amplified fragment length polymorphism DL : Déséquilibre de liaison

GBS: Genotyping by sequencing

GWAS: Genome-wide association study GWAM: Genome-wide association mapping LD: Linkage disequilibrium

PDA: Potato dextrose agar

PCA: Principal component analysis PCR: Polymerase chain reaction QTL : Quantitative trait loci

RAD-seq: Restriction site associated DNA sequencing RAPD: Random amplified polymorphic DNA

RFLP: Restriction fragment length polymorphism RILs: Recombinant inbred lines

SLAF-seq: Specific-locus amplified fragment sequencing SNP: Single nucleotide polymorphism

SSR: Sclerotinia stem rot

USDA: United states department of agriculture WGS: whole genome sequencing

(9)

IX

Remerciements

En préambule à ce rapport, je souhaitais adresser mes remerciements les plus sincères aux personnes qui m'ont apporté leur aide et qui ont contribué à l'élaboration de ce projet.

Je tiens à remercier sincèrement monsieur François Belzile qui a bien voulu m’accueillir au sein de son laboratoire, et qui, en tant que directeur de recherche, s’est toujours montré à l'écoute et très disponible tout au long de la réalisation de mon projet, ainsi pour l'inspiration, pour la documentation mise à ma disposition, l'aide et le temps qu'il a bien voulu me consacrer et sans qui ce projet n'aurait jamais vu le jour.

Je tiens à remercier l’Institut de Biologie Intégrative et des Systèmes (IBIS) à l’Université Laval qui m’a accueilli. En effet, j’ai eu le plaisir et l’honneur de travailler au sein d’un aussi important institut.

J’ai grand plaisir à profiter de cette occasion pour remercier M. Charles Goulet et M. Daniel Dostaler sincèrement pour l’honneur qu’ils m’accordent en tant que membres du jury de mon mémoire.

Je ne saurais terminer sans citer les membres de l’équipe : Martine, Suzanne, Davoud, Sidiki, Manel, Marc-André, Tom, Amina, Sébastien et Patricio pour leur coopération, leur générosité et tous les conseils et les informations qu’ils m’ont dispensés afin que ce projet se passe dans les meilleures conditions.

(10)

X

Avant-propos

Ce mémoire comporte une introduction générale, deux chapitres et des conclusions. L’introduction est une présentation du cadre général, de la problématique et de l’objectif principal de l’étude. Le premier chapitre fournit une revue bibliographique qui apportera une idée sur l’ensemble des études précédentes sur la biologie de la pourriture à sclérotes chez le soja, les méthodes d’évaluation de la résistance, les marqueurs moléculaires et les technologies de génotypage ainsi que les méthodes de cartographie des locus de trait quantitatif ou QTL (« Quantitative Trait Loci ») les plus utilisées. Le deuxième chapitre est un manuscrit intitulé “Genome-wide assoaciation mapping of Sclerotinia sclerotiorum resistance in soybean using whole-genome resequencing data”. Dans cette partie je présente le matériel et méthodes utilisés pour atteindre les objectifs annoncés dans le chapitre I, puis je décris et je discute les résultats obtenus. Je suis le premier auteur du manuscrit et j’ai réalisé toutes les expériences qui y figurent. Je termine par des conclusions qui situent les résultats obtenus dans un contexte plus large et j’explore leurs utilisations dans de futures études.

(11)

1

Introduction générale

Le soja Glycine max (L.) est une culture d’importance économique considérable avec une production mondiale de 346M de tonnes en 2018, soit une croissance d'environ 350 % par rapport à 1987 (Soymeal, 2018). La graine est considérée comme une source essentielle de protéines et d'huile, lesquelles varient autour de 18 et 40 % en teneur, respectivement (Cober et al., 2010). À travers le monde, les États-Unis, le Brésil, et l’Argentine, sont les premiers producteurs fournissant 82 % de la production mondiale (Soystats, 2018). Au Canada, le soja est classé comme la 4e culture en importance avec des revenus annuels de 2,7MM$ (Soy Canada,

2018). Elle a été introduite au Québec dans les années 1980 sur une superficie de 4 400 hectares seulement. Depuis, cette culture n’a pas cessé d’augmenter pour atteindre plus de 370 000 hectaresensemencés en 2018 (Soy Canada, 2018). À chaque année, plusieurs agents pathogènes causent des millions de dollars de pertes dans cette culture. Entre autres, la pourriture sclérotique ou pourriture à sclérotes (« Sclerotinia stem rot », SSR, ou « white mold »), causée par l’ascomycète Sclerotinia sclerotiorum (Lib.) de Bary, est l’une des maladies les plus néfastes. Pour combattre cet agent pathogène, des efforts ont été déployés à différents niveaux notamment par le développement de lignées dotées d’une résistance accrue au champignon.Jusqu’à ce jour, aucune source de résistance complète n’a été décrite chez le soja.

L’un des aspects essentiels de l’étude de la résistance est l’utilisation d’une méthode d’évaluation efficace pour la sélection de lignées ou de cultivars résistants.

(12)

2

Des travaux antérieurs réalisés au laboratoire du Prof. Belzile ont permis de mettre au point une méthode d’inoculation artificielle appelée « méthode du coton » qui permet de mesurer de manière rapide et fiable le degré de résistance que présentent différentes lignées de soja (Bastien et al., 2012). Plus récemment, en faisant appel à cette nouvelle méthode d’inoculation, deux projets de thèse ont porté sur le déterminisme génétique de la résistance contre la pourriture à sclérotes chez des lignées canadiennes élites (cultivées) (Bastien et al., 2014) et exotiques (Iquira et al., 2015). Pour ces lignées, ils ont génotypé des milliers de marqueurs SNP (« single nucleotide polymorphism ») repartis sur le génome grâce à une méthode appelée GBS (« Genotyping By Sequencing »). Par une approche statistique, Bastien et al. (2014) et Iquira et al. (2015) ont identifié les marqueurs liés aux régions responsables de la résistance. Depuis, d’autres études ont identifié des régions génomiques additionnelles associées à la résistance en ayant recours à un nombre plus élevé encore de marqueurs (Moellers et al., 2017; Zhao et al., 2015; Wei et al., 2017 et Wen et al., 2018).

En 2016, un financement important a été accordé par Génome Canada (8,3 M$) à notre équipe dans le cadre du projet SoyaGen. Un des aspects centraux de ce projet concerne le développement d’outils de sélection moléculaires pour faciliter et accélérer le développement de lignées et cultivars dotés d’une résistance accrue à des agents pathogènes et à des ravageurs. Les ressources financières de ce projet ont permis le génotypage de plusieurs centaines de lignées de soja du Canada avec des millions de marqueurs SNP. Parmi ces lignées, 127 sont déjà testées pour la résistance avec la méthode du coton (Bastien et al., 2014). Une telle densité de

(13)

3

marqueurs pourra être utilisée pour interroger des régions inexplorées du génome pour identifier avec précision des gènes impliqués dans la résistance et potentiellement les variants responsables de la variation d’expression de ces derniers.

Dans le cadre de ce projet, on visait à exploiter ce catalogue de marqueurs pour la première fois afin d’identifier de nouvelles régions conférant une résistance partielle contre la pourriture à sclérotes chez le matériel canadien.

(14)

4

(15)

5

1.1

La pourriture à sclérotes

1.1.1

Taxonomie

Le Sclerotinia sclerotiorum a été décrit pour la première fois en 1837 sous le nom de Peziza sclerotiorum (Libert, 1837; cité par Bolton et al., 2006). Ce nom était utilisé avant que l'espèce soit transférée dans le nouveau genre Sclerotinia (Fuckel, 1870; cité par Bolton et al., 2006). Selon Purdy (1979), le nom S. sclerotiorum a été utilisé pour la première fois par de de Bary en 1884. Depuis, le nom Sclerotinia sclerotiorum (Lib.) de Bary est officiellement utilisé dans la littérature.

Le genre Sclerotinia appartient à l’ordre des Heliotiales et la famille des Sclerotiniaceae (Tableau 1). Ce genre compte plus de 250 espèces dont seulement trois sont reconnues : S. minor Jagger, S. trifoliorum Eriks, et S. sclerotiorum (Lib.) de Bary (Bolton et al., 2006).

Chapitre I - Tableau 1. Classification taxonomique de Sclerotinia sclerotiorum (Lib.) de Bary Règne Fungi Division Ascomycota Classe Leotiomycetes Ordre Helotiales Famille Sclerotiniaceae Genre Sclerotinia

(16)

6

1.1.2

Hôtes

Le S. sclerotiorum s’attaque à plus de 400 espèces selon (Boland et Hall, 1994), majoritairement des dicotylédones. L’agent pathogène touche des espèces chez plusieurs familles telles que les astéracées, cucurbitacées, crucifères et apiacées. En plus du soja, d’autre espèces d’importance économique sont également affectées tel que le tournesol, le canola, le haricot, la laitue, la pomme de terre, la luzerne et l’arachide (Boland et Hall 1994 ; Bolton et al., 2006).

1.1.3

Dégâts

La pourriture à sclérotes occasionne une perte de la masse et de la qualité de la graine (Bolton et al., 2006). Aux États-Unis, ce champignon était parmi les dix premiers agents pathogènes causant des pertes chez le soja entre 1996 et 2015 (Wrather et Koenning, 2006; Koenning et Wrather, 2010; Allen et al., 2017). Il a été classé 2e en 2004 et 2009 (Wrather et Koenning, 2006; Koenning et Wrather, 2010) avec des pertes qui dépassaient 500M$ en 2009 (Peltier et al., 2012). Entre 2010 et 2015, les statistiques montrent que les pertes de rendement aux États-Unis et en Ontario (Canada) ont atteint 3,8 M de tonnes (Allen et al., 2017).

1.1.4

Symptômes

L’infection de la plante se fait à travers les fleurs de la partie inferieure la plante (2e

ou 3e nœud floral) via des ascospores ou parfois via du mycélium (Boland et Hall,

1988). Le champignon se propage rapidement à travers le pétiole vers la tige causant une lésion humide de couleur gris-verdâtre puis beige (Figure 1.a). Une fois que la maladie est installée, le signe typique de la pourriture à sclérotes est :

(17)

7

l’apparition d’un mycélium duveteux blanchâtre recouvrant les tiges, les feuilles, et les gousses, d’où le nom de pourriture blanche (white mold) (Saharan et Mehta, 2008). À maturité, la tige est fortement altérée par des sclérotes qui apparaissent sur la surface et à l’intérieur du tissu. De ce fait, le transport de l’eau et des nutriments vers les organes est perturbé causant un flétrissement de la plante (Figure 1.b) (Grau et Hartmann, 1999). En conséquence, les gousses sont souvent mal développées et peuvent contenir des sclérotes à la place des graines. Lorsqu'elles sont présentes, ces graines sont aplaties avec un tégument rompu et ridé (Saharan et Metha, 2008; Grau et Hartmann, 1999).

Chapitre I – Figure 1. Signes et symptômes de la pourriture à sclérotes A) La tige infectée avec des sclérotes à la surface B) Plante entière flétrie au champ

(18)

8

1.1.5

Cycle infectieux

Les sclérotes sont les structures de conservation de l'agent pathogène (Willetts et Wong, 1980). Leur formation dépend de plusieurs conditions telles que la température, le pH, la disponibilité des nutriments et d’acides aminés dans les tissus de l’hôte (Chet et Hennis, 1975). Après la récolte, ces sclérotes sont dispersés dans le sol et peuvent rester viables jusqu'à huit ans (Adams et Ayer, 1979). Lorsqu’ils sont suffisamment exposés à des conditions fraîches et humides, ils produisent des apothécies (Abawi et Grogan, 1979). La germination carpogénique dépend toujours des conditions environnementales, idéalement une température entre 5 et 25°C (Mila et Yang, 2008). Au Québec, la production d’apothécies commence à la fin juillet et s’étend jusqu’à la fin octobre (Rioux et al.,2014, cités par Bastien et al., 2014).

Les apothécies libèrent par la suite les ascospores lorsque les conditions d’humidité relative se trouvent entre 65 et 95 % et la température entre 4-32°C. Un faible taux d’humidité peut causer la déshydratation des apothécies et une température inférieure à 4°C ou supérieure à 32°C empêchera la libération des ascospores (Clarkson et al., 2003). Ces dernières infectent la plante via les tissus sénescents, le plus souvent les pétales des fleurs les plus anciennes (Purdy, 1979). Par la suite, le mycélium traverse les tissus pour atteindre des parties saines, puis les sclérotes se forment une fois que la plante est épuisée. Après l'hiver suivant, ils sont prêts à germer et à déclencher l'infection et un nouveau cycle infectieux (Figure 2).

(19)

9

Chapitre I - Figure 2. Cycle infectieux de la pourriture à sclérotes. Adaptée d’une figure publiée par Iowa State University Agronomy Development lab. Cité par Rojas (2014)

1.1.6

Mécanisme d’infection

À l’interaction avec l’hôte, S. sclerotiorum secrète un ensemble d’enzymes pour dégrader la paroi cellulaire et faciliter la pénétration du mycélium via les stomates (Cotton et al., 2003). Une étude transcriptomique a montré que 68 % des gènes sur-exprimés chez le champignon lors de l’infection du tournesol codent pour des CWDE (« Cell wall-degrading enzymes ») impliqués dans la dégradation de la pectine, de la cellulose, et du xylane. Ces enzymes incluent des pectinases, glucanases, glycosidases, cellulases, xylanases et des cutinases (Annis et

(20)

10

Goodwin, 1997). La dégradation de la pectine affaiblit la structure de la paroi, mais fournit aussi le carbone nécessaire pour le développement du champignon.

Une autre clé du pouvoir pathogène du S. sclerotiorum est la sécrétion de l’acide oxalique. Cet acide est produit par toutes les classes de champignons, et joue un rôle physiologique et écologique important. Quant à son rôle dans la virulence, diverses théories ont été proposées. Au début de l’infection, il supprimerait le burst oxydatif, un mécanisme de défense naturel de la plante (Cessna et al., 2000). Puis en augmentant l’acidité du milieu, il favorise la dégradation de la paroi des cellules par les CWDE en rapprochant le pH de la valeur optimale pour leur action (Magro et al., 1984; Marciano et al., 1983). En outre, il induit l’ouverture des stomates en inhibant l’action de l’acide abscissique ce qui engendre le flétrissement des feuilles. Finalement, l’acide oxalique peut aussi être toxique pour la plante et la rendre plus sujette ou sensible au développement du champignon. Des lignées transgéniques de soja qui portent des gènes codant pour une oxalate oxydase ou une décarboxylase qui dégrade l’acide oxalique ont été capables d’arrêter l’infection (Cunha et al., 2010; Donaldson et al., 2001; Yang et al., 2018). Enfin, des études ont montré que les souches mutantes de S. sclerotiorum, non-productrices de l’acide oxalique (AO-), n'étaient pas virulentes lorsqu'elles étaient inoculées sur la tige (Williams et al., 2011).

1.2

La résistance chez le soja

Il n’existe pas de lignées complètement résistantes à la pourriture à sclérotes chez le soja. Cependant, plusieurs cultivars avec une résistance partielle ont été

(21)

11

rapportés ce qui suggère que le développement de lignées dotées d’une résistance accrue au champignon est toujours possible. Pour cela, il faut identifier les cultivars les plus résistants, déterminer les déterminants génétiques de cette résistance puis initier un programme d’amélioration génétique pour cumuler et exploiter ces ressources.

1.2.1

Méthodes d’évaluation

Pour étudier la résistance à la pourriture à sclérotes chez le soja, plusieurs méthodes ont été développées. Ces méthodes peuvent être classées selon le milieu d’application (au champ ou sous serres), l’inoculum utilisé (sclérotes, ascospores ou mycélium) et la partie inoculée de la plante (cotylédons, feuilles, fleurs, tiges et pétioles). Elles peuvent être basées sur l’infection naturelle ou, plus souvent, une inoculation artificielle. Certaines méthodes ont étudié une composante de la résistance telle que la mesure d’une pigmentation secrétée par la plante sous l’action d’acide oxalique (Zhao et al., 2015).

Cette diversité d’approches utilisées traduit les limitations de ces méthodes et leur échec à faire l’unanimité au sein de la communauté scientifique. D’une part, les méthodes appliquées au champ, soit en se basant sur une infestation naturelle ou artificielle, sont influencées par le comportement du champignon sous différentes conditions climatiques et dont les résultats sont considérablement variables d’une année à l’autre. D’autre part, les méthodes appliquées sous des conditions contrôlées et sous serre sont souvent peu reproductibles au champ et sont difficiles à appliquer sur un grand nombre de lignées. Pour résoudre ce problème Bastien et al. (2012) ont développé une méthode qui reproduit fidèlement le mécanisme

(22)

12

d’infection naturelle. Elle s’appelle la méthode du coton et consiste à 1) enrober la fleur d’un morceau du coton à démaquiller qui est imbibé d’une suspension de mycélium, puis 2) mesurer la longueur de la lésion sur la tige sept jours après l’inoculation. Les lignées les plus résistantes développent les lésions les plus courtes (Figure 3).

Chapitre I - Figure 3. Évaluation de la résistance à la pourriture à sclérotes avec la méthode du coton. (A) Fleur enrobée avec un coton trempé dans une suspension du mycélium (B) La lésion développée sur la tige d’une lignée sensible 7 jours après l’inoculation (C) La lésion développée sur la tige d’une lignée partiellement résistante 7 jours après l’inoculation (Bastien et al., 2014)

Cette méthode a été utilisée pour évaluer la résistance chez Maple Donovan (partiellement résistante), OAC Bayfield (sensible), et Nattosan (très sensible) (Huynh et al., 2010). Plus récemment, elle a été utilisée sous serres, en conditions

(23)

13

optimales pour le développement du champignon, dans le but de mesurer la résistance chez une population des lignées canadiennes cultivées (Bastien et al., 2014) et des lignées exotiques (Iquira et al., 2015). Le but de ces trois études était de déterminer les régions génétiques responsables de la résistance au sein de leur matériel.

1.2.2

Déterminisme génétique de la résistance

La résistance à la pourriture à sclérotes chez le soja est un caractère contrôlé par quelques gènes. Des travaux précédents ont comparé le profil d’expression des gènes chez deux lignées présentant différents niveaux de résistance sous l’action de la maladie. En 2009, Calla et al. ont comparé Williams 82, une lignée sensible dont le génome a été séquencé (Schmutz et al., 2010), et 741-1 un cultivar partiellement résistant. Au total, 1270 gènes ont été exprimés différemment à deux moments après l’inoculation de la tige et l’expression de 105 gènes variait entre les deux lignées. Plus récemment, Rojas (2014) a utilisé OAC Salem (partiellement résistant) et OAC Shire (sensible) pour faire la même comparaison allant jusqu'à 12 jours après l'inoculation de la tige. Cette fois-ci, 2316 gènes ont été exprimés d’une manière différente entre les deux lignées à zéro, trois ou cinq jours après l’inoculation. Parmi ces gènes, 712 ont été sur-exprimés chez la lignée partiellement résistante OAC Salem.

Ces résultats viennent confirmer le caractère quantitatif de la résistance à la pourriture à sclérotes chez le soja laquelle implique plusieurs loci ou QTL (« Quantitative Trait Loci ») (Bastien et al. 2014, Iquira et al. 2015, Kandel et al. 2018).

(24)

14

Ces loci sont identifiés via différentes approches faisant appel à des marqueurs moléculaires.

1.3

Les marqueurs moléculaires

1.3.1

Types des marqueurs moléculaires

Une des contributions les plus marquantes des biotechnologies à l’amélioration génétique des plantes est sans contredit l’utilisation des marqueurs moléculaires. Les marqueurs moléculaires peuvent être définis comme étant des séquences d'ADN particulières, codantes ou non, qui présentent un polymorphisme selon les individus. Un locus marqueur est un locus polymorphe qui renseigne sur le génotype de l'individu qui le porte ou sur le génotype du locus voisin (De Vienne et Santoni, 1998). Plusieurs approches technologiques ont été développées au fil des ans pour obtenir le génotype des individus aux sites de ces séquences polymorphes. Globalement, les caractéristiques de ces marqueurs permettent de les séparer en deux familles. La première est constituée des marqueurs dominants et révélés « en masse ». Ils sont générés par des techniques de type RAPD (« Random Amplified Polymorphic DNA ») ou AFLP (« Amplification Fragment Length Polymorphism »). La seconde famille est constituée des marqueurs codominants et révélés individuellement dont les plus courants sont les marqueurs RFLP (« Restriction Fragment Length Polymorphism »), les microsatellites ou SSR (« Simple Sequence Repeats ») et les polymorphismes mononucléotidiques ou SNP (« Single Nucleotide Polymorphism »).

(25)

15

Les marqueurs moléculaires peuvent être utilisés pour décrire la variabilité génétique et sa répartition au sein de populations et d'espèces. Ils servent aussi à préciser les mécanismes évolutifs des populations qui rendent compte de cette description. Lorsqu’ils sont liés à des gènes d’intérêt, ils servent comme outils de prédilection pour accélérer le développement de nouvelles lignées de plantes. Le choix des marqueurs à utiliser dépend de l'objectif précis fixé et des moyens de l’utilisateur. Cependant avec le développement des technologies de séquençage à haut débit, les techniques RFLP, RAPD, AFLP et SSR ont rapidement été abandonnées au profit des SNP.

Bien que les SNP soient moins polymorphes que les autres marqueurs en raison de leur nature bi-allélique (changement d’une seule paire de base), ils compensent facilement cet inconvénient par leur abondance dans le génome et leur faible coût de génotypage. Les nouvelles techniques de séquençage à haut débit permettent d’ailleurs une identification et une analyse de la variation nucléotidique à grande échelle des SNP (Mammadov et al., 2012).

1.3.2

Technologies de génotypage à haut débit des SNP

Les progrès des technologies de séquençage de nouvelle génération (NGS pour « next generation sequencing ») et la diminution des coûts de séquençage ont conduit au développement de nouvelles techniques pour la détection de polymorphismes et le génotypage. Certaines plateformes ont été développées pour la détection de marqueurs SNP dont les loci sont déjà connus comme les puces à ADN. D’autres techniques, dites de réduction de complexité, visent toutes à ne séquencer qu’une fraction du génome. Elles font toutes appel à des enzymes de

(26)

16

restriction pour fragmenter le génome puis identifier des marqueurs au sein de ces régions fragmentées. Parmi celles-ci, on note le séquençage des fragments amplifiés provenant de locus spécifiques (« Specific-Locus Amplified Fragment sequencing », SLAF-seq), le séquençage d’ADN lié à des sites de restriction (« Restriction-site Associated DNA sequencing », RAD-seq) et génotypage par séquençage (« Genotyping By Sequencing », GBS) (Elshire et al., 2011). Bien que toutes ces techniques permettent d’obtenir un grand nombre de marqueurs SNP, le GBS reste la technique la plus populaire vue sa simplicité.

Les puces à ADN

Les puces à ADN sont utilisées pour révéler l’allèle présent à des loci SNP puis déterminer les génotypes chez les lignées analysées en se basant sur le dosage des deux allèles. Chez le soja, la première puce été mise au point par le United States Department of Agriculture (USDA) et elle a été utilisée sur la plate-forme Golden Gate d’Illumina (Hyten et al., 2008) pour génotyper 1536 SNP répartis sur le génome. En 2013, la deuxième puce a été développée par la même équipe. La puce SoySNP50K, laquelle utilise la plate-forme Infinium d’Illumina, est capable d’interroger 52 041 marqueurs SNP simultanément (Song et al., 2013). Cette puce a été récemment utilisée pour révéler des QTL de résistance au S. sclerotiorum chez le soja (Wen et al., 2018).

Le GBS

Le génotypage par séquençage ou GBS est une technique de révélation des marqueurs moléculaires à partir des fragments d’ADN (Poland et Rife, 2012). Ces

(27)

17

fragments sont obtenus après une étape de réduction de la complexité qui consiste à digérer les ADN des individus étudiés avec un enzyme de restriction qui permet de n’amplifier qu’une fraction du génome (Figure 4). Ces fragments subissent ensuite une ligation à des séquences contenant des codes à barre spécifiques à chaque individu. Les ADN des différents individus sont regroupés dans des « librairies » d’ADN et sont séquencées (Elshire et al., 2011; Poland et al., 2012).Les données de séquençage sont traitées par des logiciels bio-informatiques pour trier les séquences selon leurs codes à barres et révéler les marqueurs, soit par une approche comparative entre les séquences des différents individus, soit par l’alignement de ces séquences à un génome de référence. Chez le soja, on utilise cette deuxième approche puisque son génome a été séquencé (Schmutz et al., 2010).

Chez le soja, on a fait appel à la technique GBS pour étudier la résistance au S. sclerotiorum (Bastien et al., 2014; Iquira et al., 2015; Wei et al., 2017) et pour caractériser la diversité haplotypique liée à la maturité hâtive chez des lignées canadiennes (Tardivel et al., 2014)

(28)

18

Chapitre I – Figure 4. Étapes de la détection des marqueurs par une approche GBS

Reséquençage

Il est possible de séquencer le génome complet d’une lignée aux fins d’étude détaillée, surtout après l’arrivée des plates-formes de séquençage NGS qui produisent des masses de séquences à coût abordable. Chez le soja, l’analyse de ces données de séquençage couvrant la totalité du génome est notamment facilitée par la publication d’une deuxième version du génome en février 2013 couvrant presque 98 % des gènes connus. En séquençant le génome entier, on pourra identifier la majorité des polymorphismes, soit des millions de SNP, en comparaison de quelques dizaines de milliers de SNP (ou de polymorphismes) obtenus par les approches de réduction de complexité ou les puces. Cependant, le reséquençage demeure trop cher pour l’utilisation à grande échelle et sera souvent utilisé pour les études approfondies d’un nombre limité de lignées.

(29)

19

Dernièrement Torkomaneh et al. (2017) ont montré qu’il est possible de génotyper des millions de SNP sur une population canadienne de 530 lignées en combinant les données GBS avec les données issues de reséquençage de 102 lignées seulement, soit 20 % de la population. Cette approche sera utilisée dans cette étude et sera détaillée dans la section matériel et méthodes du chapitre II.

1.4

Approches de cartographie QTL

Contrairement aux gènes majeurs, qui ont un effet important sur le caractère, les QTL ne sont souvent responsables que d’une faible proportion de la variabilité phénotypique du caractère. De ce fait, ces QTL sont difficiles à identifier et nécessitent la mise en place d’approches spécifiques. Parmi celles les plus souvent utilisées on trouve la cartographie par intervalle et la cartographie par association pangénomique.

1.4.1

Cartographie par intervalle

Cette approche est basée sur la distance qui sépare le QTL d’un marqueur. Plus un marqueur est proche du QTL, plus ils ont tendance à ségréger ensemble. Cette méthode nécessite un grand nombre de lignées issues d’un croisement entre deux parents contrastés pour le caractère étudié. Ces lignées constituent la population de cartographie et elles seront phénotypées pour le caractère en question. Par la suite, il faut construire une carte génétique qui donne la position des marqueurs polymorphes entre les parents de la population de cartographie. La distance entre deux marqueurs est fragmentée en intervalles égaux. Pour chaque intervalle, des logiciels spécifiques sont capables d’estimer un LOD score qui est le rapport de la

(30)

20

vraisemblance de l’existence et de l’absence d’un QTL au sein de cet intervalle. Par exemple, un LOD score de 2 signifie que l’existence d’un QTL est 100 fois plus probable que son absence. De nombreuses études ont utilisé la cartographie par intervalles pour des caractères d’intérêt agronomique chez le soja y compris la résistance à la pourriture à sclérotes (Kim et Diers, 2000; Arahana et al., 2001; Huynh et al., 2010; Vuong et al., 2008; Guo et al., 2008; Zhao et al., 2015 et Kandel et al., 2018). Néanmoins, cette méthode a ses limitations puisqu’elle nécessite du temps pour développer une population de cartographie, se limite à la diversité allélique offerte par les deux parents et aboutit souvent à des QTL qui couvrent de grands intervalles peu utiles pour les programmes d’amélioration.

1.4.2

Cartographie par association pangénomique

La cartographie par association est une approche basée sur le déséquilibre de liaison ou DL (« Linkage Disequilibrium », LD). Ceci réfère à une association non-aléatoire de locus liés dans une population. Ainsi, deux allèles à deux locus distincts sont retrouvés plus fréquemment associés dans une population avec une fréquence qui s'écarte de la valeur attendue. Contrairement à la cartographie par intervalle, la cartographie par association est réalisée sur une population de lignées non-apparentées comme des cultivars bien caractérisés pour le caractère étudié et génotypés avec un grand nombre de marqueurs repartis sur le génome. Par une approche statistique, il est possible de calculer pour chaque marqueur une valeur (« p-value ») qui indique le degré de signification de l’association entre la variation allélique au locus du marqueur et la variation phénotypique du caractère.

(31)

21

Le résultat typique de l’analyse d’association pangénomique est un diagramme de Manhattan qui représente sur son axe des Y le logarithme négatif de la valeur P de l'association pour chaque position de SNP affiché sur l'axe X (Figure 5).

Chapitre I - Figure 5. Le diagramme de Manhattan d’une analyse d'association pangénomique. Les valeurs – log10 (p) représentées sur l’axe des Y sont en fonction de la position physique de chaque marqueur SNP sur l’axe des X. Le seuil de signification est indiqué par la ligne horizontale. (Bastien et al., 2014)

Pour réussir une étude d’association pangénomique, il faut considérer certains facteurs qui peuvent influencer l’analyse tels que la variation du DL et la structure de la population.

Déséquilibre de liaison

Pour identifier un QTL, il faut avoir au moins un marqueur suffisamment proche ou, autrement dit, en DL élevé avec le QTL en question. Il faut noter que la conservation

(32)

22

du DL le long de la distance physique dépend de la diversité génétique existant au sein de la population étudiée et de la position sur le chromosome. Par exemple, chez une population de lignées issues d’un croisement biparental, le DL sera conservé sur des longues distances comparé à une population composée de plusieurs lignées non-apparentées. De même, dans les régions centromériques, la fréquence des recombinaisons est faible et le DL est conservé sur de longues distances. Inversement, dans les régions télomériques, où les événements de recombinaison sont plus fréquents, le DL est susceptible de diminuer plus rapidement avec la distance physique. Pour cela, il faut s’assurer d’avoir une couverture suffisante en SNP surtout dans les régions télomériques où se trouve la majorité des gènes.

La structure de la population

Les observations dans les études d'association peuvent être confondues par la structure de la population et les liens de parenté existant entre les lignées. Ceci peut aboutir à la présence des sous-groupes dans la population contenant des lignées ayant des ancêtres communs. La présence de ces groupes peut biaiser les analyses et générer de fausses associations ou des faux positifs.

Les nouveaux modèles d’analyse d’association peuvent tenir compte de la structure de la population en intégrant des matrices issues des analyses avec le logiciel STRUCTURE (Pritchard et al., 2000) ou des analyses de composantes principales (« Principal Component Analysis »,PCA)(Price et al., 2006). Pour un nombre K de sous-populations donné, le logiciel STRUCTURE estime à quel point chaque lignée

(33)

23

appartient aux différents sous-groupes proposés. Par la suite, il peut estimer le nombre K le plus plausible pour expliquer la structure existante dans la population. Dans le cas des analyses PCA, un nombre minimal des composants est estimé pour expliquer la variabilité génotypique des marqueurs utilisés. Dans les deux cas, une matrice traduisant le degré d’appartenance de chaque lignée aux différentes sous-populations identifiées sera créée et intégrée dans le modèle statistique d’analyse d’association.

Il est également nécessaire de tenir compte des liens de parenté entre les lignées en calculant le coefficient de parenté (« kinship ») pour chaque paire de lignées. Ce coefficient estime la probabilité que les similarités génétiques entre deux lignées, expliquées par les allèles au locus des marqueurs utilisés, sont dues à un ancêtre commun. Comme pour la structure, le coefficient de Kinship sera introduit sous forme d’une matrice. Le modèle d’analyse d’association les plus efficace est le modèle mixte qui corrige pour la structure avec la matrice issue d’analyses STRUCTURE (matrice Q) ou PCA (matrice P) et pour les liens de parenté avec la matrice de Kinship (matrice K) (Zhao et al., 2007a).

(34)

24

Hypothèses et objectifs

En 2014, Bastien et al ont identifié quatre QTL conférant une résistance partielle contre la pourriture à sclérotes au sein d’une population de lignées canadiennes. Ensemble ces QTL ont expliqué seulement 35 % de la variation phénotypique, ce qui nous laisse suggérer qu’avec une meilleure couverture en SNP du génome on pourrait capturer d’autre(s) composante(s) de la résistance au sein du même matériel. Dans cette étude nous voulons,dans le cadre de mon projet de maîtrise, tester les hypothèses suivantes :

1. Il est possible de trouver de(s) nouveau(x) QTL de résistance partielle à la pourriture à sclérotes chez les lignées canadiennes avec une couverture plus exhaustive en SNP.

2. Il est possible de valider ce(s) QTL dans un croisement biparental. Pour valider ces hypothèses nos objectifs sont:

• Refaire une cartographie par association avec une densité élevée de SNP pour trouver d’autre(s) QTL de résistance partielle.

• Tester si le(s) allèle(s) au niveau de ce(s) QTL peuvent reproduire le même effet phénotypique dans la descendance issue d’un croisement biparental.

✓ Développer des marqueurs spécifiques pour le(s) QTL détectés. ✓ Mesurer l’écart phénotypique des descendants porteurs des allèles

(35)

25

II.

Genome-wide association

mapping of Sclerotinia

sclerotiorum resistance in

soybean using whole-genome

resequencing data

(36)

26

Genome-wide association mapping of Sclerotinia

sclerotiorum resistance in soybean using whole-genome

resequencing data

Chiheb Boudhrioua

1

, Maxime Bastien

1

, Davoud Torkamaneh

1

and

François Belzile

1

1

Département de phytologie and Institut de Biologie Intégrative et des

Systèmes (IBIS), Université Laval, Quebec City, Quebec, Canada

G1V0A6

(37)

27

Abstract

Sclerotinia stem rot (SSR), caused by Sclerotinia sclerotiorum (Lib.) de Bary, is an important cause of yield loss in soybean. Although many papers have reported different loci contributing to partial resistance, few of these were proved to reproduce the same phenotypic impact in different populations. In this study, we wanted to identify quantitative trait loci (QTL) associated with resistance to SSR progression on the main stem by using a genome-wide association study (GWAS). For 127 lines, we combined genotyping by sequencing (GBS) and whole genome sequencing (WGS) data to ensure extensive genome coverage. Almost 1.5M High-quality SNPs where used for GWAM. We discovered a new QTL on chromosome 1 (Gm01) where resistant lines had shorter lesions on the stem by 29 mm. The impact of this QTL was even more significant in the descendants of a cross between two lines carrying contrasted alleles for Gm01. Individuals carrying the resistance allele developed lesions almost 50 % shorter than those bearing the sensitivity allele. These results suggest that this region could harbor promising traits related to resistance.

(38)

28

Résumé

La pourriture à sclérotes causée par Sclerotinia sclerotiorum (Lib.) De Bary est une cause importante de perte de rendement du soja. Bien que des nombreux travaux de recherche aient rapporté différents loci contribuant à la résistance partielle, peu d'entre eux ont produit le même impact phénotypique dans différentes populations. Dans cette étude, nous voulions identifier des loci de traits quantitatifs associés à la progression de la pourriture à sclérotes sur la tige en utilisant une étude d'association pangénomique (GWAM). Pour 127 lignées, nous avons combiné des données issues d’une approche de génotypage par séquençage (GBS) et de séquençage du génome entier (WGS) pour assurer une couverture étendue du génome. Près de 1,5 million de SNP de haute qualité ont été utilisés pour l’association GWAS. Nous avons découvert un nouveau QTL sur le chromosome 1 (Gm01) où les lignées résistantes présentaient des lésions sur la tige 29 mm plus courtes. L'impact de ce QTL était encore plus significatif chez les descendants d'un croisement entre deux lignées portant des allèles contrastés pour Gm01. Les individus porteurs de l'allèle de résistance développaient des lésions presque 50 % plus courtes que ceux portant l'allèle de sensibilité. Ces résultats suggèrent que cette région pourrait abriter des traits prometteurs liés à la résistance.

(39)

29

Introduction

Sclerotinia Stem rot (SSR) is a significant disease that causes yield and quality loss in soybean in the northern United States and Canada. This disease is caused by Sclerotinia sclerotiorum, a necrotrophic Ascomycota, capable of infecting more than 408 different species (Boland and Hall, 1994). The fungus infects the plant via the flower then spreads through the stem causing bleaching, severe wilting and shredding of tissue (Bolton et al., 2006). SSR was reported as the second most important disease-causing yield losses in Canada in 1994 and in the USA in 1994, 2004 and 2009 (Wrather and Koenning, 2006; Koenning and Wrather, 2010). However, the impact of this disease is very unpredictable from year to another because fungal development is highly influenced by temperature and humidity (Mila and Yang, 2008). Its impact could be reduced by using chemical or biological control, but results can be variable as these methods can fail when disease incidence is higher than 50% (Zeng et al., 2012). The best results can be achieved when several preventive treatments are applied each year even when SSR doesn’t pose a threat due to unfavorable climate conditions. Considering these facts, enhancing the genetic resistance of soybean cultivars seems to be the most effective solution to reduce the detrimental impacts of SSR.

The evaluation of SSR resistance is quite challenging in variable environmental conditions. However, a reliable inoculation method was developed by Bastien et al. (2012) wherein a mycelium suspension is applied on flower buds in controlled greenhouse conditions. It has been shown to produce consistent results and was

(40)

30

used to investigate the genetic determinants of SSR resistance is soybean (Huynh et al., 2010; Bastien et al., 2014; Iquira et al., 2015).

To date, complete resistance has yet to be reported in soybean. Partial resistance is controlled by multiple genes or quantitative trait loci (QTL). Numerous mapping studies have been conducted and have identified more than 114 QTL via conventional biparental mapping (Kim and Diers, 2000; Arahana et al., 2001; Huynh et al., 2010; Vuong et al., 2008; Guo et al., 2008; Zhao et al., 2015 and Kandel et al., 2018). Although this method has been widely used for QTL mapping, it is still limited to the genetic diversity present in the two parents. More recently, with the advancement of genotyping technologies, it was possible to screen quantitative partial resistance in multiple soybean lines with thousands of markers using genome-wide association mapping (GWAM). Using this method, more than 130 QTLs have also been reported in different populations (Bastien et al., 2014; Iquira et al., 2015; Moellers et al., 2017; Zhao et al., 2015; Wei et al., 2017 and Wen et al., 2018). Such number of loci raise some questions about their credibility especially when fewer of these were proved to reproduce the same allelic effect in different genetic backgrounds. One explanation is that some of these QTLs identified based on different methods of evaluation, could be confused with an escape or avoidance mechanisms and not genuinely related to the real physiological resistance to SSR (Bastien et al., 2014; Kim and Diers, 2000). As a proof, the only QTL proved to reproduce the same phenotyping effect in a biparental cross was identified on chromosome Gm15 based on resistance evaluation under

(41)

31

a controlled environment (Bastien et al., 2014). These results suggest that a reliable phenotyping method is a key factor in this study.

Compared to biparental mapping, diversity panels offer a lower level of linkage disequilibrium (LD) between markers and QTLs. Hence, for GWAM, a higher marker density is needed depending on population size and diversity. For higher QTL detection power, the LD between the QTL and any flanking markers should be higher than 0.8. To achieve such a coverage, Bastien et al. (2014) estimated that 12,900 SNPs in the pericentromeric regions and 55,700 SNPs in the telomeric region would be needed for a total of over 68K well-distributed SNPs to cover the entire genome. For mapping SSR resistance loci in soybean, many attempts were made to achieve such converge using different genotyping approaches like genotyping by sequencing (GBS) (Bastien et al., 2014; Iquira et al., 2015; Wei et al., 2017) or specific locus amplified fragment sequencing (SLAF-seq) (Zhao et al., 2015). To date, the largest number of informative SNPs was achieved using the SoySNP50K array in two studies. One obtained 35,683 SNPs on 466 accessions (Moellers et al., 2017) and the other achieved 31,600 and 35,708 SNPs, respectively, in populations of 915 improved lines and 405 soybean landraces (Wen et al., 2018). It is likely that the marker coverage obtained in these most recent papers still falls short of the number needed to ensure exhaustive genome coverage.

One alternative to the previously used genotyping approaches is whole-genome sequencing (WGS). However, this approach is still expensive, especially when

(42)

32

using large populations. In previous work, Torkamaneh et al. (2017a) proposed a two-step approach termed “scanning and filling”. In a first step, a large population can be genotyped at tens of thousands of SNP loci (using GBS or an array). In a second step, WGS can be performed on a subset of these lines (e.g. 20%) and these can serve as a reference panel to impute millions of SNP markers onto the entire set of accessions.

In this work, we used such a combined GBS and WGS genotyping approach to genotype an association panel (comprising elite Canadian soybean lines) at millions of SNPs. We then used this exhaustive marker dataset to perform GWAM in the association panel to identify QTLs responsible for partial resistance to SSR in Canadian soybean.

2.1

Materials and Methods

2.1.1

Association mapping panel

The association mapping panel used for this study was composed of 127 lines exhibiting a wide variation in their response to SSR. These were chosen from a larger group of 530 accessions (cultivars/advanced breeding lines) representative of the genetic diversity in Canadian soybean based on previous work (Torkamaneh et al., 2017a). These 127 lines belonged to maturity groups (MGs) ranging from 000 to II except for one line, Williams 82, from MG III. A series of six checks were also included: three cultivars known to offer a good level of SSR partial resistance (Karlo RR, Maple Donovan and S19-90), two moderately resistant cultivars (OAC Bayfield

(43)

33

and Williams 82) and one highly susceptible cultivar (Nattosan) (Bastien et al., 2012).

2.1.2

Validation panel

A total of 47 F6:8 lines segregating for the candidate QTL region on chromosome

Gm01 were selected to serve as a validation panel. These lines were generated from a cross between the partially resistant Maple Donovan and the susceptible OAC Bayfield.

2.1.3

Phenotyping

Lines were evaluated for SSR partial resistance using the cotton pad method described in Bastien et al. (2012). For the association panel, the phenotypic data are those previously reported by Bastien et al. (2014). Briefly, plants were sown in a greenhouse in a randomized complete block design with four blocks separated in time (25 Sept, 6 Nov,18 Dec 2009 and 29 Jan 2010). Experimental units consisted of a total of six plants grown in three 6-L pots (two per pot). The same experimental design was used to characterize the validation panel but with only two blocks separated in time (4 May and 7 Sept 2017) and four plants per experimental unit. The potting mix was prepared using a mixture of black earth (50%), perlite (30%) and Promix (20%) (Premier Tech Horticulture, Rivière-du-Loup, QC, Canada). At sowing, seeds were inoculated with RhizoStick® inoculant (Becker Underwood, Ames, IA). Plants were grown under a 16-h photoperiod and the day/night temperature was maintained at 26/22°C.

(44)

34

The inoculum was prepared from strain NB-5 (provided by Dr. S. Rioux of CEROM, Quebec City, QC, Canada) as described in Bastien et al. (2012). Briefly, S. sclerotiorum was cultured in potato dextrose broth (PDA) for three days until almost reaching saturation. Inoculation was performed once the plants started to flower. First, the suspension was homogenized for 30 s in a blender. Then, pieces (2.7 x 5.5 cm) of cotton pad were soaked in the suspension. The inoculum was applied on the petiole of the lowest node bearing flowers. After inoculation, plants were transferred to a different greenhouse where day/night temperatures were 22°C/18°C and high humidity was maintained at 2.5 g/m3 with a fogging system.

For the validation panel, all plants were inoculated on the same day, while for the association panel, several days were needed because of differences in flowering date. Lesion length was measured 7 d after inoculation.

2.1.4

SNP genotyping and imputation

The association panel was a part of a larger set of 530 Canadian elite lines on which we had previously performed GBS (ApeKI, as per Elshire et al., 2011) over time (Bastien et al., 2014; Torkamaneh et al., 2017a). To maximize data quality and uniformity, all reads (940M 108-bp single-end Illumina reads) were run on an improved SNP-calling pipeline (Fast-GBS; Torkamaneh et al., 2017b) and on a more recent version of the Williams 82 reference genome (Wm82.a2.v1) (Schmutz et al., 2010). This resulted in a catalogue of 150K SNPs on which all missing data were called using BEAGLE v5 (Browning and Browning, 2007) as per Torkamaneh and Belzile (2015). Subsequently, a subset of 102 lines was subjected to whole-genome sequencing (WGS) (Torkamaneh et al., 2017a) and the resulting SNP

(45)

35

catalogue (>4M SNPs) was used as a reference panel to perform large-scale imputation of missing loci. The SNP data (4.1M loci) for the 127 lines of the association panel were extracted and filtered using vcftools v0.1.16 (Danecek et al., 2011). We retained SNPs with a minor allele count (MAC) ≥ 1 and a minor allele frequency (MAF) ≥ 0.05. Linkage disequilibrium (LD) was estimated (using r2) for

all marker pairs in a sliding window of 50 Kb using PLINK 1.9 (Purcell et al., 2007).

2.1.5

Analysis of population structure

Given the large size of the SNP catalogue (almost 1.5M SNPs), pruning was performed using PLINK 1.9 (Purcell et al., 2007) to remove markers in high LD (r2

≥ 0.9). The resulting set of 85K SNPs was used to assess population structure using fastSTRUCTURE (Raj et al., 2014) with K set between 1 and 12. The most likely number of subpopulations was estimated using the chooseK tool from fastSTRUCTURE (Raj et al., 2014). To provide a complimentary assessment of population structure, a neighbor-joining tree was also generated using the same set of pruned SNPs in TASSEL version 5.0 (Bradbury et al., 2007) and visualized using FigTree v1.4.3 (Rambaut et al., 2016).

2.1.6

Genome-wide association analysis

In view of GWAS, only SNPs having a minor allele frequency (MAF) ≥ 5% in the association panel were used, and this resulted in a catalog of close to 1.5M filtered SNPs. An association mapping analysis for SSR partial resistance was performed using the phenotypic (mean lesion length) and genotypic data described above with the Genomic Association and Prediction Integrated Tool (GAPIT version 2) (Tang

(46)

36

et al., 2016). To correct for false-positive associations, a mixed linear model (Q + K model) taking into account both population structure (Q matrix) and relative kinship (K matrix) was used. The Q matrix (for K=6) was derived from fastSTRUCTURE while the K matrix was generated in TASSEL. Marker-trait associations were deemed significant when the measured p-values were below a critical p-value corresponding to a false discovery rate (FDR) of 0.1 (Benjamini and Yekutieli, 2005).

2.1.7

QTL validation

A codominant cleaved amplified polymorphic sequence (CAPS) marker was designed to genotype one of the candidate SNPs (Gm01:5594765) residing in the haplotype block containing the peak SNP on Gm01. Two specific primers (5’-GTTGTATGGAAGTGCAACTAAAGTTCT-3’ and 5’-GGTACTTTTTCTTACCTTAC GATGA-3’) were used to amplify an 800-bp region encompassing the targeted SNP. The two alleles can be distinguished by digesting the resulting amplicon with NmuCI. The PCR product derived from the allele associated with partial resistance to SSR (present in Maple Donovan) will be cut once while the product obtained after amplification of the allele from the susceptible parent (OAC Bayfield) is not cut. All 47 F6:8 lines of the validation panel (described above), along with the two parental

(47)

37

2.1.8

Genomic landscape around the peak SNP

LD values from Plink (Purcell et al., 2007) were extracted for a 2Mb window around the most significant associated SNP and LD blocks were visualized using Haploview (V4.2) (Barrett et al., 2005). Information about the genes found in the LD block containing the peak association were obtained from SoyBase (www.soybase.org). Functional annotation of nucleotide variation in the region was explored using SnpEFF (Cingolani et al., 2012).

2.2

Results

2.2.1

SSR resistance in lines of the association panel

Lesion length was measured seven days after inoculation on young flower buds, and the mean value for each genotype is shown in Table 1. As illustrated in Figure 1, lesion lengths were found to range broadly, from as low as 29 mm to a maximum of 192 mm, with lesion length in the population averaging 114 mm. The distribution of lesion lengths was bell-shaped suggesting that several genes control this trait. The resistant checks (Karlo RR, S19-90 and Maple Donovan) ranked among the lines with the shortest lesions (1st, 3rd and 21st out of 127) while the highly

susceptible check Nattosan had the second longest lesions (177 mm) and the two moderately susceptible checks (Williams 82 and OAC Bayfield) showed lesions slightly above the population average.

(48)

38

2.2.2

Marker distribution

To achieve extensive genome coverage, we re-analyzed previously obtained sequence data (940M single-end reads from ApeKI GBS libraries prepared from DNA of 530 elite Canadian soybean lines) using an improved SNP-calling pipeline (Fast-GBS) and a more recent version of the soybean reference genome. This yielded nearly 150K SNPs on the panel of 530 lines that included all lines of the association panel. We then used a catalog of 4.1M SNPs obtained from WGS of 102 lines, also included in the set of 530 lines, as a reference panel to impute genotypes at all the missing loci, thus resulting in a full dataset of 4.1M markers. Of these, 3.5M SNPs were polymorphic in our association panel (i.e., carried an alternate allele in at least for one of the 127 lines). After removal of SNPs mapping to scaffolds (49.7K SNPs), 3.4M SNPs mapped onto one of the 20 soybean chromosomes (Supp Table 1). Finally, we removed markers whose MAF was lower than 0.05, thus resulting in a final catalog of 1,493,960 SNPs with which we performed the GWAS analysis.

2.2.3

Population structure and kinship

To characterize population structure, we pruned SNPs in high LD (r2 ≥ 0.9; windows

of 50 SNPs), and the remaining 84,708 SNPs were used in fastSTRUCTURE. The results suggested that the panel was composed of between three and six subpopulations. To shed further light on population structure, we also produced a neighbor-joining tree using the same SNP dataset (Supp Fig 1). Based on these two results, we chose to perform the ensuing analysis using K=6 and the

(49)

39

corresponding plot is shown in Figure 2. To further reduce confounding, we estimated the kinship between lines of the association panel and this resulted in a K matrix.

2.2.4

Genome-wide association mapping for SSR resistance

Marker-trait associations were estimated using the phenotypic data (mean lesion length) and the full set of filtered SNP markers (close to 1.5M markers). These were analyzed using an MLM (Q+K) and associations with p-values corresponding to an FDR < 0.1 were considered significant. In total, only two chromosomal regions were found to have at least one peak SNP exceeding this threshold (on Gm01 Gm15; Fig 3). As detailed in Table 3, the peak SNP on Gm01 was at position 5,594,597, showed a p-value of 5.08 x 10-5 and explained 32% of the phenotypic variation. As

shown in Figure 4, accessions carrying the favorable allele (frequency = 0.38) at this locus showed shorter lesions although some accessions still exhibited lesions averaging over 100 mm. A second associated region was found on chromosome Gm15 with a single significantly associated marker at position 13,665,369 (p-value=9.76 x 10-5; FDR= 0.04) and explained 15% of the variation. Accessions fixed

for the minor allele (frequency=0.32) had lesions that were 15 mm shorter than those fixed for the major allele.

2.2.5

Validation experiment

As the association on Gm15 had already been validated in previous work, we focused here on validating the candidate region for SSR resistance on Gm01. To do this, we used a population of F6:8 lines derived from a cross between OAC

(50)

40

Bayfield (S) and Maple Donovan (R). These parents were contrasted for the peak marker on Gm01 as well for SSR resistance; Maple Donovan carries the resistance allele and developed lesions 78.3 mm shorter than those exhibited by OAC Bayfield. The parents were used as checks in the validation trial in addition to 47 recombinant inbred lines (RILs) selected as a validation population. For each line, four plants were genotyped using a CAPS marker developed to assay the QTL on Gm01. Among the 47 RILs, 21 were homozygous for the resistance allele while 26 were fixed for the susceptible allele. These RILs, along with the parents, were then evaluated for SSR resistance in two greenhouse trials. The contrast in lesion length between the parents was still evident (60 mm). Among the RILs, the average lesion length was 63 mm and ranged from 16 to 107 mm. Interestingly, almost all genotypes fixed for the resistance allele developed lesions under the average, ranging between 16 and 78 mm (average of 40 mm), whereas lines homozygous for the susceptible allele averaged 83 mm with lesion length extending from 51 to 107 mm. The phenotypic contrast between the two genotypic classes (43 mm) (Fig 5) was significant (p = 0.007).

2.2.6

Candidate genes near the peak SNP on Gm01

The LD (r2) was estimated between all marker pairs between positions 5.4 and 5.8

Mb to investigate the genomic landscape around the associated region on chromosome Gm01. Then, LD blocks were constructed using an r2 threshold of 0.8.

The LD plot (Fig 6) showed that the associated region was a part of a single LD block spanning nearly 276 kb (from 5,528,405 to 5,805,120). This block contained

Références

Documents relatifs

Posteriorement, nous avons développé une approche de génotypage par séquençage (GBS) permettant de caractériser rapidement et efficacement un grand nombre de

Dans une première partie de la thèse, les ressources génétiques disponibles pour l’amélioration de la résistance à la fusariose ainsi que les QTL détectés à ce jour

Aussi sur les courbes reflétant les estimations avec les polynômes splines, on ne remarque plus les oscillations observées sur les bords des courbes reflétant les estimations

Pour atteindre cet objectif, la démarche a été la suivante (schématisée en Figure 3) : (I) réaliser une revue bibliographique des connaissances actuelles sur l’importance et

Réaliser une recherche bibliographique sur le thème (ou revue de littérature) en lien avec les spécificités de la population concernée: caractéristiques de la population,

Les résultats obtenus montrent que, sur les trois familles chimiques testées et autorisées dans la lutte contre la pourriture grise sur fraise (dicarboximides,

Après un premier chapitre consacré à une revue bibliographique sur les deux modèles biologiques étudiés, nous avons décrit dans le deuxième chapitre le cadre de l’étude par

Notre étude est fondée sur une recherche bibliographique approfondie concernant cette maladie chez les bovins, en abordant plusieurs aspects : la biologie du parasite,