• Aucun résultat trouvé

6. Objectifs de la thèse

1.4. Evaluation de la diversité allélique au sein de la famille TaNAC et association avec

49

1.4. Evaluation de la diversité allélique au sein de la famille TaNAC et association avec

des caractères phénotypiques

Afin d’estimer le polymorphisme présent dans la famille NAC de blé tendre et son éventuel

impact sur différents caractères phénotypiques de la plante en général et du grain en particulier,

nous avons dans un premier temps réalisé une étude de la diversité allélique présente au sein de

la famille TaNAC à partir des données disponibles, puis nous avons étudié les éventuelles

associations entre variations alléliques et caractères phénotypiques d’intérêt.

1.4.1. Etude de la diversité allélique de la famille TaNAC

Les marqueurs de polymorphisme ont été recensés à partir de données générées dans le cadre

des projets BreedWheat (https://breedwheat.fr/) et Whealbi (https://www.whealbi.eu/fr/)

(Figure 20).

- Le projet investissement d’avenir BreedWheat a permis la création d’une puce de

génotypage qui contient 423 385 marqueurs SNP (Single Nucleotide Polymorphism)

génomiques génotypés sur environ 7 800 accessions de blé (Rimbert et al. 2018), dont

les 366 lignées de la Core Collection INRA (Balfourier et al. 2007). Par la suite, les

données de génotypage issues de cette puce pour ces 366 lignées seront notées «

BW_420K ».

- Le projet européen Whealbi a généré des données de polymorphisme par capture

d’exome de 512 lignées (454 lignées de blé tendre et 58 lignées d’espèces apparentées).

La capture d’exome a consisté en une hybridation de l’ADN génomique total avec des

sondes spécifiques des exons, selon la technique décrite par Mascher et al. (2013).

Environ 50% des gènes existants chez le blé ont été capturés. Leur séquençage a produit

un fichier contenant l’ensemble des variations observées sur la totalité de la collection

(512 lignées). Seules les 454 lignées de blé tendre ont été utilisées pour la recherche de

polymorphisme génétique dans la famille TaNAC. Par la suite, les données de

génotypage issues de ce projet seront notées « Whealbi ».

Nous avions pour objectif de rechercher le polymorphisme présent dans les 488 gènes de la

famille TaNAC, et dans leurs 5’ et 3’ UTRs (Untranslated Transcribed Regions) qui pourraient

influencer leur niveau d’expression en modifiant par exemple le site de fixation de protéines

50

régulatrices. Pour cela, nous avons extrait les données de génotypage des fichiers BW_420K et

Whealbi en utilisant les coordonnées génomiques sur la pseudomolécule du blé de chaque gène

d’intérêt bordés de 1500 pb en amont et en aval ; de sorte à tenir compte des UTR. Les données

obtenues ont été filtrées : les marqueurs ayant un allèle rare (dont la fréquence est inférieure à

5% au sein de la base de données considérée) ou trop de données manquantes ont été écartés de

l’analyse.

1.4.2. Association entre SNP et caractères phénotypiques

Les données de phénotypage utilisées dans le cadre de cette étude d’association sont d’origines

multiples.

- Au sein de l’équipe BIANCA, les mesures de taille du grain (surface, longueur et largeur

moyennes) et de PMG ont été réalisées à l’optomachine pour les 512 lignées de Whealbi

ainsi que pour les 366 lignées de la core collection INRA (incluant les lignées de la Core

Collection Agronomique).

- La dureté et la concentration en protéines des grains ont été mesurées au NIRS sur les

366 lignées de la core collection INRA comme décrit par Bordes et al. (2011).

- Après avoir été cultivés dans trois environnements, Clermont-Ferrand et Le Moulon

avec une forte fertilisation azotée et Le Moulon avec un faible apport d’azote

(Clermont-Ferrand High Nitrogen, Le Moulon High Nitrogen et Le Moulon Low Nitrogen), les

196 lignées de la Core Collection Agronomique ont été phénotypées (Bordes et al.

(2011) donnent les détails de l’essai agronomique). Le PMG ainsi que la composition

protéique fine du grain ont été acquis (Bordes et al. 2013 ; Plessis et al. 2013).

Les études d’association entre le polymorphisme moléculaire identifié et les phénotypes pour

les caractères mesurés sur les différentes collections ont été réalisées avec un modèle

comprenant une matrice d’appariement (matrice kinship, K), qui permet d’évaluer la

ressemblance génétique entre les individus, disponible dans le package rrBLUP (Endelman

2011) sous R (http://www.R-project.org ; R development Core Team, 2008). Ce type de modèle

permet de limiter le nombre d’associations faussement positives dues au déséquilibre de liaison

de longue portée généré par la structuration (l’apparentement) de la population utilisée.

Figure 21 : Exemple de l’existence d’un Out of Target Variant (OTV). Un OTV est un site de

variation possédant plus de 2 variations, ici les allèles A ou C ou une absence de signal, notée

0. Cette variation allélique à 3 variables a été recodée en un SNP biallélique (allèle1/allèle2)

et un marqueur de type Présence/Absence. L’existence d’un OTV peut être due, par exemple, à

la délétion de ses séquences flanquantes dans certaines lignées, les sondes complémentaires à

ces séquences ne peuvent donc pas se fixer. Biologiquement, cela peut donc traduire une

délétion partielle ou totale du gène ciblé.

51

Pour augmenter la précision des associations, nous avons utilisé la méthode K-loco pour la

recherche d’association sur la Core Collection Agronomique. Pour rechercher les associations

avec les marqueurs d’un chromosome donné, cette méthode demande d’estimer une matrice K

sans ces derniers marqueurs. Il faut donc calculer une matrice K par chromosome. Dans toutes

les autres conditions, c’est une matrice kinship calculée à partir de tous les marqueurs qui a été

utilisée. La matrice kinship utilisée avec les données de génotypage issues de Whealbi a été

construite par Gilles Charmet, en utilisant la totalité des marqueurs qui n’étaient pas en

déséquilibre de liaison sur les 512 lignées de blé tendre. La matrice kinship utilisée avec les

données de génotypage issues des Core Collection INRA et Agronomique a été construite par

Catherine Ravel à partir de 3449 marqueurs qui ne présentaient pas de déséquilibre de liaison

parmi les 420 000 marqueurs de la puce BW_420K.

Pour la recherche d’association à partir des marqueurs issus de la puce BW_420K, la totalité

des données de phénotypage obtenue sur les Core Collection INRA et Agronomique a pu être

exploitée (366 et 196 lignées respectivement). Cependant, pour la variabilité estimée à partir

des données Whealbi, seules les données de phénotypage des 211 lignées de la Core Collection

INRA et des 108 lignées de la Core Collection Agronomique ont pu être exploitées. Un score

seuil, robuste sans être trop strict, a été fixé à -Log(p-value) = 3, donc p-value = 0,001.

Parmi les données de polymorphismes disponibles issues de la puce BW_420K, on distingue

SNP (Single Nucleotid Polymorphism) et OTV (Out of Target Variant) (Figure 21). Les OTV

sont des sites pour lesquels, en plus des 2 allèles, un signal nul a été détecté pour plusieurs

lignées, ce sont donc des SNP tri-alléliques (allèle1/allèl2/nul). Ce type de variation peut

s’expliquer de différentes façons. Par exemple, le SNP étudié est proche d’un ISBP (Insertion

Site-Based Polymorphism) zone très polymorphe, ou il est ancré dans un gène qui est absent

dans plusieurs lignées de la collection étudiée et présent dans d’autres. Afin d’étudier le

polymorphisme de ces SNP non bi-alléliques, ils ont été recodés en un SNP bi-allélique

« allèle1/allèle2 » en considérant l’absence de signal comme une donnée manquante et un

marqueur avec un polymorphisme « Présence de SNP / Absence de SNP ».