• Aucun résultat trouvé

Chapitre 1 : Revue bibliographique

1.4.2 La cartographie génétique

Globalement, la cartographie génétique est la détermination de la position d’un locus (gène ou marqueur génétique) sur un chromosome. Ces gènes sont très souvent en partie responsables de la variation phénotypique pour un caractère d’intérêt. En effet, dépendamment de la nature génétique du caractère d’intérêt, il pourrait être contrôlé un seul gène (monogénique) dans le cas de caractères qualitatifs comme la couleur des fleurs ou des graines. Par contre, la plupart des caractères agronomiques d’intérêt économique sont contrôlés par un grand nombre de gènes répartis sur plusieurs chromosomes du génome et sont donc appelés des caractères quantitatifs (« quantitative trait locus » ou QTL). Ce n'est pas une tâche facile d’identifier ces derniers et, par conséquent, cela nécessite des approches de cartographie fiables. Les approches de cartographie génétique peuvent être résumées en deux types selon le matériel génétique utilisé. (i) la cartographie biparentale nécessitant des d'individus issus du croisement de deux parents et (ii) la méthode d’association pangénomique faisant intervenir des individus non apparentés par un croisement récent.

1.4.2.1 Cartographie biparentale

La cartographie biparentale aussi connue sous le nom de cartographie de liaison génétique nécessite la production d’une population en ségrégation, laquelle est généralement obtenue en croisant deux parents présentant des différences phénotypiques significatives pour au moins un caractère d'intérêt. À cet égard, différentes populations de cartographie peuvent être utilisées comme la seconde génération filiale (F2), des lignées haploïdes doublées « double haploide (DH) », des lignées consanguines recombinantes (« recombinant inbred line » ou RIL), des lignées isogéniques « near isogenic lines » ou NIL) ainsi que des lignées rétrocroisées (« backcross » ou BC) (Meksem et Kahl 2005).

L’approche de cartographie biparentale nécessite la création d'une carte génétique rassemblant les informations génétiques de deux parents différents (Iquira 2014) Chez le soya, la première carte de liaison génétique moléculaire a été rapportée en 1990 (Keimp, et al. 1990) utilisant une population F2 avec 60 descendants issus d'un croisement de A81- 356022 (G. max) × PI468916 (G. soja) (Song, et al. 2016). Le fondement de la cartographie QTL est basée sur le principe selon lequel si un gène particulier est très proche d'un marqueur moléculaire, le gène et le marqueur resteront probablement ensemble pendant le processus

de recombinaison (méiose) et ils seront probablement transmis ensemble du parent aux descendants. Ainsi, si un gène est en partie responsable de la variation d’un caractère phénotypique, l’identification de ce marqueur permettra d’affirmer la présence potentielle du gène chez l’individu donné (Mammadov, et al., 2012).

Dans les deux dernières decennie, la méthode de cartographie biparentale à été utilisée pour identifier des QTL associés à une très large gamme de caractères d’intérêt. Parmi les caractères qui sont en lien avec le sujet de cette thèse, nous pouvons souligner que de telles études ont été réalisées sur la teneur en acides aminés soufrés (cystéine et méthionine) chez des lignées de soya de diverses origines (Panthee, et al., 2006; Ramamurthy, et al., 2014; Warrington, et al., 2015) ou pour identifier des QTL associés à la teneur en éléments minéraux (Zhang, et al., 2009 ; Bellaloui, et al., 2011 ; King, et al., 2013 et Hacisalihoglu et al., 2018).

Malgré ses nombreuses contributions à l’acquisition de connaisssances sur l’architecture génétique des caractères d’intérêt, la cartographie biparentale présente toujours certains défis et lacunes. Elle necessite plusieurs années de travail pour obtenir une population de cartographie (Figure I.5a). Les QTL identifiés à l'issue de ces méthodes ne sont valables que pour cette population, car la diversité allélique (une différence dans la chaîne d’acides nucléiques constituant le gène) observée se limite à celle des deux parents. Finalement, elle offre une faible résolution pour identifier d'éventuels gènes candidats, car les régions génomiques dans lesquelles se trouvent les QTL sont généralement très grandes (Figure I.5a). En revanche, la méthode d’association pangénomique « Genome wide association study (GWAS) » représente une approche passionnante et prometteuse pour surmonter aux problèmes cités ci-dessus au sein d’une population d’individu non apparentée (Figure I.5b).

Figure I. 5: Illustration de deux méthodes d'association. Réadapté selon (Zhu, et al. 2008).

1.4.2.2. Méthode d’association pangénomique

Initialement développée pour étudier le génome humain (Scherer et Christensen 2016), les études GWAS peuvent être conçues pour évaluer les déterminants génétiques de presque tous les caractères qualitatifs ou quantitatifs (Gurgul, et al. 2014). Alors que de plus en plus de chercheurs se lancent dans ce domaine, nous aimerions donner un bref aperçu des concepts clés qui sous-tendent le GWAS.

Le GWAS consiste à évaluer statistiquement l'association entre chaque marqueur génotypé (le plus souvent des SNP) et la variation d’un phénotype d'intérêt (Korte et Farlow 2013). Contrairement à la méthode biparentale où la diversité allélique se limitait à celle présente au sein des deux parents, le GWAS bénéficie d’une diversité allélique plus large grâce à la diversité génétique naturelle au sein de la population d’étude. Il ne nécessite pas un croisement et offre également une plus grande résolution pour la détection des QTL grâce aux évènements historiques de recombinaison entre les individus de la population d’étude (Rafalski 2010). Le succès d’une analyse GWAS repose sur un certain nombre de facteurs décrits comme suit.

1.4.2.2.1. Déséquilibre de liaison

Le déséquilibre de liaison « linkage disequilibrium (LD) » est une propriété des SNP qui décrit le degré avec lequel un allèle d'un SNP est hérité ou corrélé avec un allèle d'un autre

SNP au sein d'une population (Alqudah, et al. 2020). La puissance et la précision du GWAS dans la détection des QTL reposent sur ce concept de LD. En effet, les évènements historiques de recombinaison occasionnent une diminution rapide du LD au sein de la population. En contrepartie, dans une population de GWAS, la décroissance rapide du LD nécessite l'utilisation d'un grand nombre de marqueurs pour pouvoir couvrir le génome entier à une densité suffisante (Myles, et al. 2009). Le LD s’étend sur des longues distances chez les individus issus d’un croisement biparental par rapport aux individus non apparentés (Zhu, et al. 2008). De plus, le LD varie selon les régions génomiques surtout dans les régions péricentromériques qui sont pauvres en gènes et en évènements de recombinaison (Lee, et al. 2013). Également, le LD a tendance à être plus élevé entre les allèles des loci qui sont situés à proximité les uns des autres et inversement si les loci ont éloignés à cause des échanges de fragments chromosomiques lors de la méiose.

Ainsi, dépendamment de la population à l’étude, le calcul de LD au début de l'analyse d'association est essentiel. Le r2 et le D’sont des métriques utilisées comme coefficients du LD pour mesurer la corrélation entre les allèles entre deux loci suite aux évènements historiques de mutation et de la recombinaison (Flint-Garcia, et al. 2003).

Ce LD peut être conservé à travers les différents évènements de recombinaison entre les allèles d’un sous-ensemble de marqueurs sur le chromosome créant ce qu’on appelle un haplotype. La conservation du LD est un facteur très important pour un GWAS puisqu’il nous renseigne sur le degré de liaison entre les marqueurs d’une région génomique sur un chromosome. Le variant génétique (SNP ou variant structural) qui cause la variation d’un caractère particulier peut ne pas être directement testé, car non génotypé dans le GWAS, mais du fait de sa liaison conservée avec un autre marqueur, sa signature peut toujours être évidente par l'association à ce SNP (Scherer et Christensen 2016) ; on parle alors d’association indirecte.

1.4.2.2.2. La variation phénotypique

La réussite d’une étude de GWAS dépend aussi d’un phénotypage aussi précis que possible du caractère d'intérêt ainsi que l’intensité du phénotypage (taille de la population) (Würschum 2012). D'autre part, une variation phénotypique significative et une héritabilité

au sens large modérée à élevée est cruciale dans une étude d’association. En effet, le niveau de l’héritabilité au sens large estimé à partir de la variance phénotypique nous renseigne sur la part de contribution de la variance génétique au phénotype.

Un autre facteur limitant la puissance de détection du GWAS est l’erreur issue des répétitions des essais et l’effet de l’environnement (lorsque plusieurs sites sont inclus). Différentes méthodes ont été proposées pour réduire ces effets comme la méthode de meilleur prédicteur linéaire sans biais « best linear unbiased predictor (BLUP) » ou le meilleur estimateur linéaire sans biais « best linear unbiased estimator (BLEU) » (Alqudah, et al. 2020).

1.4.2.2.3. Structure de population et relations familiales

Bien que les études GWAS aient le potentiel de détecter les polymorphismes génétiques sous- jacents aux caractères importants, les faux positifs sont une préoccupation majeure et peuvent être partiellement attribués à de fausses associations causées par la structure de la population ou relations familiales (« kinship ») entre les individus d'une cohorte donnée (Zhang, et al. 2010). La structure de la population est due à la présence de deux ou plusieurs sous- populations principales, tandis que la structure familiale fait référence à différents niveaux de parenté entre les individus (Würschum 2012). Actuellement, différents outils ont été développés comme SPAGeDi (Hardy et Vekemans 2002) pour l’analyse du kinship et FastSTRUCTURE (Raj et al. 2014) pour l’analyse de la structure de population. Ces outils permettent de générer une matrice de parenté (matrice K) et de structure (matrice Q). Par la suite, ces matrices sont incorporées dans les modèles statistiques d’association pour ainsi réduire le risque de déclarer des fausses associations.

1.4.2.2.4. Méthodes d’analyse statistique

Dans une situation idéale, des analyses statistiques « classiques » (régression linéaire, l'analyse de variance (ANOVA), le test de t ou le test du chi carré) suffiraient à mesurer le degré d’association entre chaque marqueur et le phénotype. Cependant, comme la structure de la population ainsi que le kinship peuvent occasionner des fausses associations génotype- phénotype, différentes approches statistiques ont été conçues pour traiter ces facteurs limitants dans une étude d’association pangénomique (Zhu, et al. 2008). Ces approches peuvent être groupées en deux grandes catégories selon la méthode analytique. Ces approches

comprennent la méthode à locus unique où les effets des marqueurs sont testés individuellement pour leur association à la variation phénotypique comme le modèle linéaire mixte compressé « CMLM » (Zhang, et al. 2010). Alternativement, il existe des méthodes à locus multiples où les effets de tous les marqueurs sont simultanément estimés dans une analyse multidimensionnelle du génome. En matière de modèles multi-locus, nous avons les modèles mixtes multi-locus «MLMM» (Segura, et al. 2012) et le modèle fixe et aléatoire d'unification des probabilités de circulation « FarmCPU » (Liu, et al. 2016). Ainsi, afin de pouvoir bénéficier de l’avantage de chaque modèle statistique, différents chercheurs recommandent l’utilisation combinée des modèles à locus unique et à locus multiples (Cui, et al., 2018 et Abed et Belzile, 2019) et ainsi les QTL identifiés par de multiples modèles sont vraisemblablement plus robustes et crédibles. Les différentes étapes citées ci-dessus nécessaires à la réalisation du GWAS sont schématisées à la Figure I.6.

Quant à la visualisation des résultats de telles analyses, différents outils informatiques intégrant ces modèles statistiques ont été développés et offrent également une visualisation graphique des résultats d’analyses permettant aux chercheurs d’une part de juger de la qualité des résultats comme le diagramme quantile-quantile (Figure I.7a) et un diagramme «Manhattan» (Figure I.7b) permettant d’observer la valeur des tests statistiques (valeurs P en ordonnées) indiquant le degré́ de signification de l’association entre la variation allélique au locus du marqueur et la variation phénotypique du caractère en question. Sur ce même graphique, les positions physiques des marqueurs tout au long du génome, chromosome par chromosome, sont fournies en abscisse.

Figure I. 6: Les étapes les plus importantes pour réussir une GWAS

Figure I. 7: Visualisation du résultat d’un GWAS. Diagramme Quantile-Quantile (a) et du diagramme Manhattan (b)

Documents relatifs