• Aucun résultat trouvé

Evaluer la sélection génomique au sein de croisements bi-parentaux d’espèces pérennes fruitières génotypés par séquençage : point d’étape du projet FruitSelGen

N/A
N/A
Protected

Academic year: 2021

Partager "Evaluer la sélection génomique au sein de croisements bi-parentaux d’espèces pérennes fruitières génotypés par séquençage : point d’étape du projet FruitSelGen"

Copied!
1
0
0

Texte intégral

(1)

Evaluer la s ´election g ´enomique au sein de croisements

bi-parentaux d’esp `eces p ´erennes fruiti `eres g ´enotyp ´es par

s ´equenc¸age : point d’ ´etape du projet FruitSelGen

Coordinateur: Timoth ´ee Flutre

UMR AGAP (Montpellier), Biologie et Am ´elioration des Plantes, INRA

timothee.flutre@inra.fr

Co-auteurs : A. Launay (UMR AGAP), C. Denanc ´e (UMR IRHS), H. Muranty (UMR IRHS), J-M. Audergon (UR GAFL), C. Confolent (UR GAFL), P. Lambert (UR GAFL), B. Quilot-Turion (UR GAFL), P-F. Bert (UMR EGFV), E. Marguerit (UMR EGFV), E. Dirlewanger (UMR BFP), J. Quero Garcia (UMR BFP), S. Decroocq (UMR BFP), V. Decroocq (UMR BFP), G. Butterlin (UMR SVQV), E. Duch ˆene (UMR SVQV), E. Costes (UMR AGAP), J-J. Kelner (UMR AGAP), B. Pallas (UMR AGAP), P. Mournet (UMR AGAP).

1. Contexte

L

E projet FruitSelGen, financ ´e par le m ´eta-programme Selgen de 2015 `a 2016, a pour

but d’ ´evaluer la s ´election g ´enomique au sein de croisements bi-parentaux d’esp `eces p ´erennes fruiti `eres. Ces esp `eces sont caract ´eris ´ees par leur difficult ´e `a collecter des donn ´ees ph ´enotypiques sur les caract `eres d’int ´er ˆet, notamment qualitatifs, en raison de stades juv ´eniles souvent longs et une forte plasticit ´e ph ´enotypique, contraignant ainsi les programmes de s ´election `a travailler sur des tailles restreintes de population. De plus, la s ´election actuellement pratiqu ´ee chez ces esp `eces n’utilise pas toujours d’informa-tion g ´en ´etique selon l’architecture des caract `eres. L’innovad’informa-tion que repr ´esente la s ´elecd’informa-tion g ´enomique pourrait donc permettre de s ´electionner des caract `eres co ˆuteux `a ph ´enotyper, pr ´esentant une architecture polyg ´enique `a faible h ´eritabilit ´e. Enfin, le g ´enotypage par puce, ´etant peu flexible et pouvant avoir un co ˆut prohibitif, nous avons utilis ´e la technique de g ´enotypage par s ´equenc¸age apr `es digestion par une enzyme de restriction.

2. Croisements et dispositifs au champ

Le projet s’int ´eresse `a 10 croisements, 8 F1 et 2 F2 (leurs parents F1 n’ ´etant plus dispo-nibles). Exemple du croisement de vigne, Syrah x Grenache, `a Montpellier :

Deux dispositifs au champ ne sont plus disponibles. Parmi les autres, certains n’ont qu’un seul bloc et pas de t ´emoins r ´epartis.

3. T ˆache 1 — Ph ´enotypes

L’objectif est de d ´eterminer si les donn ´ees ph ´enotypiques brutes peuvent ˆetre directement fournies aux logiciels de pr ´ediction g ´enomique, ou bien s’il faut au pr ´ealable tranformer les donn ´ees et tenir compte d’h ´et ´erog ´en ´eit ´e spatiale et de corr ´elations inter-annuelles. Cette ´etape est l’occasion de discuter autour de la mod ´elisation statistique (mod `eles mixtes, s ´election de mod `eles, diagnostiques des r ´esidus) et a aussi pour but de former les parti-cipants aux bonnes pratiques d’analyse de donn ´ees (trac¸abilit ´e, reproductibilit ´e).

Pour tous les croisements, les donn ´ees ph ´enotypiques brutes avaient d ´ej `a ´et ´e acquises. Un d ´ep ˆot git a donc ´et ´e mis en place, h ´eberg ´e sur la plateforme Mulcyber de l’INRA. Il rassemble tous les fichiers de donn ´ees, ainsi que les scripts d’analyse. Le logiciel R, ´etant connu par la majorit ´e des participants, a ´et ´e choisi pour cela, avec le paquet lme4 (Bates et coll., 2015). Toutes les ´equipes ont d ´ebut ´e l’analyse de leurs donn ´ees, et certaines l’ont finie.

Par ailleurs, en accord avec les conseils de Heffner et coll. (2009) et afin de pr ´eparer la vie des donn ´ees apr `es le projet, les partenaires “vigne” ont compar ´e les bases de donn ´ees VitPhe (UMR MIS-TEA) et GnpIS (Steinbach et coll., 2013). Cette derni `ere a ´et ´e choisie pour commencer `a ins ´erer les donn ´ees du croi-sement “vigne” de Montpel-lier. Les partenaires de Col-mar ont commenc ´e `a faire de m ˆeme, et les partenaires

“vi-gne” de Bordeaux ont pr ´ef ´er ´e s’investir dans l’am ´elioration de VitPhe. GnpIS est multi-esp `eces donc les autres partenaires pourraient y ins ´erer leurs donn ´ees.

4. T ˆache 2 — G ´enotypage (biologie mol ´eculaire)

Chaque ´equipe participante a eu la responsabilit ´e d’extraire les ADN de ces ´echantillons. La qualit ´e de plusieurs extractions n’ayant pas toujours ´et ´e suffisante, il a ´et ´e n ´ecessaire de re-extraire certains ADN `a Montpellier. Un protocole ad ´equat a donc ´et ´e recommand ´e pour des analyses futures afin d’ ´eviter ce type de probl `emes.

Tous les ADN ont ensuite ´et ´e dig ´er ´es par l’enzyme ApeKI, et les banques construites `a l’aide du protocole d’Elshire et coll. (2011). Une version d ´etaill ´ee de ce protocole a ´et ´e fournie aux ´equipes et des formations ont ´et ´e donn ´ees sur la plateforme de l’UMR AGAP afin de rendre autonomes les ´equipes ayant missionn ´e l’un de leurs membres permanents.

Le s ´equenc¸age a ´et ´e effectu ´e `a GenoToul. A l’automne 2015, 1728 ´echantillons multiplex ´es en 48 (pommier) ou 96 (autres esp `eces) ont ´et ´e s ´equenc ´es sur 3 flowcells compl `etes Illu-mina HiSeq3000 en 2x75. Le s ´equenc¸age suite `a ce protocole ´etant caract ´eris ´e par une non-uniformit ´e substantielle de la profondeur de couverture, il a ´et ´e n ´ecessaire de repasser 384 ´echantillons (certains ayant d ˆu ˆetre re-extraits) `a l’automne 2016, cette fois-ci sur 4 lanes de HiSeq3000 en 1x150.

align (total=548243517) clean (total=790052165) demult (total=796758418)

project FruitSelGen−cherry−PRUAV−Regina−v1−bordeaux

Number of read pair

s 0e+00 1e+07 2e+07 3e+07 4e+07 5e+07 6e+07 RG85RG78RG128RG101V0897RG26RG118RG89RG55RG74RG90RG77RG76RG64RG28RG46P750RG5 RG121RG61RG93RG3RG1RG7RG58RG110V4135RG105RG52 Star k−Hardy V3858RG86V1906RG39RG116V4105RG29V4102RG21RG54RG106RG12V4249RG19V4127V4066RG125RG42V2180V0892RG30RG10RG72RG95V4104V1741RG120RG60RG37RG27RG122V3112V4087RG109V2229RG65RG17RG43RG35RG115V1518RG20V1320V2917RG91V4107RG50RG127RG83V4115RG6V2048V1406RG69RG23RG32RG124RG15V3856RG67V3076V4254RG114RG102RG22RG62RG16ReginaV4252RG108RG24RG84RG68V0566V0167RG57RG107V0370RG2V2685RG13V0175RG126V0372RG92P752RG56V2680RG113RG53Gar net RG87RG49RG44RG100V4119RG45RG18V4123RG112RG41RG14RG119RG31RG82RG25RG4RG63RG71RG66RG103RG123V2597RG81V0254RG73RG48RG33RG75RG88RG80RG47BingRG51RG70RG59RG94RG117V4089RG36RG99 Genotypes (161)

5. T ˆache 3 — G ´enotypage (bioinformatique)

Le traitement des lectures brutes a ´et ´e r ´ealis ´e `a l’aide d’un nouveau programme d ´evelopp ´e sp ´ecifiquement pour le projet, gbs.py, utilisant la structure des jeux de donn ´ees pour les ex ´ecuter en parall `ele. Il est flexible, document ´e et versionn ´e sur GitHub sous licence libre, et dispose d’un test fonctionnel. Ces diff ´erentes ´etapes sont : le contr ˆole qualit ´e avec FastQC ; le d ´emultiplexage ; le nettoyage avec CutAdapt ; l’alignement avec BWA suivi de Samtools et Picard ; les r ´ealignements, SNP/genotype calling et filtres (profondeur, qualit ´e et cer-taines erreurs mend ´eliennes) avec GATK. Pour pommier et cerisier, les nouveaux g ´enomes de r ´ef ´erence ont ´et ´e utilis ´es.

Pour chaque croisement, la m ´ediane de couverture du g ´enome est entre 3,5 et 35% (r ´esultat attendu ´etant donn ´e la digestion) et dans les zones s ´equenc ´ees, la couverture m ´ediane est entre 19 et 29x (a priori suffisante pour un calling de qualit ´e).

esp `ece ´equipe croisement descendants nb.SNP

vigne Montpellier SxG 192 28624

vigne Colmar RIxGW 256 113353

vigne Bordeaux CSxRGM 120 45861

pommier Angers PxX6398 251 30797

pommier Montpellier X3263xB 301 22946

abricotier Avignon GoxMo 186 31334

p ˆecher Avignon PxR (F2) 186 en cours

cerisier Bordeaux RxG 120 8640

p ˆecher-amandier Bordeaux CxG 71 38390

p ˆecher-amandier Bordeaux HxC (F2) 48 en cours

A ce stade, d’autres filtres de s ´egr ´egation sont r ´ealis ´es et des cartes g ´en ´etiques parentales sont en train d’ ˆetre construites, afin de v ´erifier que les blocs de recombinaison sur la ma-jeure partie des chromosomes sont bien couverts, en comparant CarthaGene (de Givry et coll., 2005) avec ASMap (Taylor et Butler, 2017) et JoinMap (Van Ooijen, 2011). Une ´etape d’imputation a ´egalement d ´ebut ´e avec FImpute (Sargolzaei et coll., 2014).

6. T ˆache 4 — Pr ´ediction g ´enomique (biostatistique)

Le choix du logiciel s’est port ´e sur GS3 (Legarra et Misztal, 2008 ; Legarra, Ricard et Filangi, 2016) car il impl ´emente efficacement (en Fortran) les mod `eles statistiques supposant une architecture polyg ´enique ainsi que ceux pour une architecture oligog ´enique, tout en prenant en compte le pedigree et les marqueurs, ceux-ci pouvant ˆetre cod ´es en additif et en domi-nant. Afin de faciliter son emploi par les participants, le paquet R rgs3 a ´et ´e d ´evelopp ´e ; il est document ´e avec des tutoriels, versionn ´e sur GitHub sous licence libre et dispose de tests unitaires. Il automatise notamment la validation crois ´ee par partition permettant ainsi d’ ´evaluer facilement la pr ´ecision de pr ´ediction.

Dans l’exemple du caract `ere “taille de la baie” du croisement SxG (Doligez et coll., 2013), les BLUP empiriques des valeurs g ´enotypiques des descendants ont d’abord ´et ´e obtenues `a partir des ph ´enotypes bruts par r ´egression des effets du dispositif exp ´erimental, avec une h ´eritabilit ´e au sens large (r ´ep ´etabilit ´e inter-annuelle) de 0.68. Puis, `a l’aide du single-step GBLUP (Legarra et coll., 2014) avec effets additifs aux 1600 marqueurs sans donn ´ees man-quantes, en prenant comme poids la variance des BLUP, la corr ´elation de Pearson vaut 0.78 +- 0.02 (moyenne et d ´eviation standard apr `es validation crois ´ee `a 5 partitions).

7. Perspectives

Certaines ´equipes doivent encore versionner leurs donn ´ees ph ´enotypiques, et la plupart sont encore en cours d’analyser leurs ph ´enotypes. La majorit ´e ont aussi commenc ´e `a se familia-riser avec les donn ´ees de g ´enotypage notamment en construisant des cartes g ´en ´etiques. La partie principale du travail restant consiste donc `a ´evaluer la pr ´ecision de pr ´ediction sur leurs caract `eres, ce qui permettera d’entamer les comparaisons entre croisements en vue d’une soumission d’article d ´ebut 2018.

8. Financement et Remerciements

M ´eta-programme Selgen de l’INRA, South Green et URGI.

Références

Documents relatifs

imprime toutes les lignes contenant le mot analyse suivi du mot lexical dans tous les fichiers de suffixe .tex. (L’option -i

Perdre ses photos de vacances : ¸ca n’a pas de

[r]

Syntaxe de l’adressage indirect par registre.- Comme nous l’avons d´ej` a vu, pour d´esigner une valeur constante on ´ecrit cette valeur (en hexad´ecimal), pour une valeur se

Syntaxe de l’adressage indirect par registre en langage symbolique.- Comme nous l’avons d´ej` a vu, en langage symbolique, pour d´esigner une constante on ´ecrit celle-ci

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux

Pour trouver les coordonn´ ees d’un point dans un rep` ere, on ´ ecrit l’´ equation (vectorielle) caract´ eristique on convertit cette ´ equation en syst` eme num´ erique on

Pour trouver les coordonn´ ees d’un point dans un rep` ere, on ´ ecrit l’´ equation (vectorielle) caract´ eristique on convertit cette ´ equation en syst` eme num´ erique on