• Aucun résultat trouvé

Annotation du génome micronucléaire

Dans le document Annotation des génomes de paramécies (Page 134-138)

D

ans le chapitre précédent, je me suis intéressé à l’annotation des gènes du génome macronucléaire (MAC). Le présent chapitre est consacré à l’annotation du génome micronucléaire (MIC) et plus particulièrement aux Internal Eliminated Sequences (IES) et aux éléments transposables (ET) (voir section III.3.1 p.64). Les technologies à haut-débit de séquençage ont fait progresser nos connaissances du génome MIC et fait évoluer la manière d’aborder les questions scientifiques.

V.1 Annotation des IES

V.1.1 Identification des IES de Paramecium tetraurelia

L

’article Arnaiz et al. (2012), qui va suivre, décrit l’identification des IES de Para- mecium tetraurelia à l’échelle du génome. Cette étude est une étape clé (54 citations relevées en janvier 2020 via PubMed) pour la communauté scientifique étudiant les réar- rangements de génome chez la paramécie. En établissant un certain nombre de ressources et protocoles, elle autorise à imaginer des études fonctionnelles et comparatives. L’article formalise le protocole de préparation d’ADN de cellules en cours de développement ma- cronucléaire et inactivées pour un gène impliqué dans les réarrangements. L’extraction d’ADN est suivie d’un séquençage haut débit (voir Figure V.1 p.106). Nous l’avons dit, elle établit le jeu de référence d’IES du génome de Paramecium tetraurelia. Elle propose les fondements méthodologiques et bioinformatiques de traitement de lectures NGS pour la paramécie. En réalité, c’est la première publication utilisant des données NGS chez la paramécie.

Avant d’énoncer les grands résultats de cette étude, voici quelques éléments de contexte de notre connaissance des IES et des réarrangements de génome chez la pa- ramécie au moment de la parution de l’article. Dans les sections III.2.2 et III.3.2 (p.58 et p.68), nous avons vu que pendant les processus sexuels de la paramécie, le génome MAC

Figure V.1 – Protocole d’extraction d’ADN de cellules inactivées pour un gène

Les paramécies sont cultivées dans un milieu contenant des bactéries produisant de l’ARNdb et conduisant l’extinction du gène cible (voir section III.2.3.2 p.61). Une fois les bactéries consom- mées, la carence alimentaire induit les processus sexuels. Les siARN, toujours présents dans les cellules, réduisent l’expression du gène cible pendant l’autogamie. Dans le cas d’une extinction de PGM, les CDB ne sont pas introduites mais la réplication n’est pas inhibée. Après 3 jours, le développement des ébauches n’est pas terminé et des fragments de l’ancien MAC sont toujours présents dans le cytoplasme. L’ADN est extrait, après fractionnement cellulaire suivi ou non d’une purification des ébauches, puis séquencé.

en développement subit des réarrangements génomiques : une endoréplication d’ADN fait passer le noyau d’un état diploïde à un état polyploïde. La complexité du génome MAC se réduit par une élimination imprécise de grandes régions génomiques, conte- nant notamment des ET ainsi qu’une élimination précise de petites séquences : les IES. En 2006, le génome MAC avait été séquencé (Aury et al. 2006) mais le génome MIC restait très largement inconnu car une purification de ce noyau était techniquement im- possible à l’époque (voir section V.2 p.135). La cinquantaine d’IES connues (complétée par 1800 TA-indels par Duret et al. (2008), voir section III.3.2.1 p.71), a permis d’énoncer des caractéristiques qui s’avéreront correctes à l’échelle du génome. Les IES sont petites et peuvent être intragéniques ou intergéniques. Un consensus faible aux bornes des IES (5’TAYAGYNR3’) suggère à Klobutcher and Herrick (1995) un lien de parenté entre les IES et des ET de la famille des Tc1/Mariner (voir section II.2.1.2 p.44). En 2009, Baudry et al. (2009) révèlent l’existence d’un gène codant pour une transposase domestiquée Pig- gyMac (Pgm) de la famille des ET PiggyBac dans le génome de la paramécie. La protéine Pgm est requise pour les deux types d’élimination d’ADN. L’inactivation de PGM, par ARN interférence (voir section III.2.3.2 p.61), ne perturbe pas la réplication mais empêche l’introduction des CDB pendant les réarrangements programmés. Le séquençage d’ADN d’ébauches enrichies de cellules en cours de réarrangement, dans lesquelles l’expression du gène PGM a été déplétée (l’ADN "PGM"), nous donne un aperçu du génome germinal et donc des IES de Paramecium tetraurelia.

La première étape pour l’identification des IES est un alignement des lectures de sé- quençage Illumina de l’ADN "PGM" sur le génome MAC de référence. Comme discuté dans les section I.3.4 (p.28) et II (p.31), la sensibilité de l’annotation dépend de la qua- lité du génome. Or, il faut savoir que le génome MAC de Paramecium tetraurelia publié

en 2006 a été fait sur des cellules de la souche d4-2 (Aury et al. 2006), alors que l’ADN "PGM" a été extrait de cellules de la souche 51. La souche d4-2 est issue d’un croisement entre la souche 51 et la souche 29 suivit d’une série de rétrocroisements avec la souche

51. Le polymorphisme entre les souches 51 et d4-2 est considéré comme faible (∼2500

SNP d’après mes estimations) mais il était suffisant pour gêner une annotation exhaustive des IES. De plus, nous savions que l’assemblage MAC de P. tetraurelia contenait de nom- breuses erreurs de séquençage, et notamment des indels. En 2009, Pilon (Walker et al. 2014) n’existait pas encore, j’ai donc développé une méthode analogue. A l’aide d’aligne- ments de données de séquençage Illumina d’ADN macronucléaire sur le génome MAC, j’ai non seulement corrigé les erreurs d’assemblage (au moins∼7500 InDels et∼6900 sub- stitutions) mais également obtenu un génome dans lequel les SNP entre les souches d4-2 et 51 ont été modifiés. Bien qu’ayant la structure du génome de la souche d4-2, ce génome MAC de P. tetraurelia a été façonné pour ressembler à celui de la souche 51. La nouvelle version de l’annotation des gènes présentée dans la section IV (p.89) précédente est faite sur ce génome 51 (Arnaiz et al. 2017). Cette référence MAC est encore largement utili- sée aujourd’hui, car la souche 51 reste la souche de prédilection d’une grande partie des paraméciologues.

Des approches de détection de sites d’insertion (méthode MIRAA pour Method of Iden- tification by Read Alignment Anomalies) et des approches par assemblage global ou local (méthode MICA pour Method of Identification by Comparison of Assemblies) ont déterminé la présence de 44 928 IES dans le génome de P. tetraurelia (voir plus de détails sur les méthodes dans la section V.1.2 des résultats, p.127). Les∼45 000 IES sont réparties dans tout le génome. Elles sont tout autant intergéniques qu’intragéniques, et 47% des gènes contiennent au moins une IES. En revanche, nous observons une asymétrie de densité en IES le long des chromosomes MAC (voir Figure V.2 p.108), possiblement un indicateur de la structure, encore mal connue, des chromosomes MIC (voir section III.3.1 p.64).

L’assemblage des lectures PGM génère un génome de ∼100Mb de complexité. Avec un génome MAC de 72Mb, la compléxité des séquences MIC éliminées pendant les ré- arrangements est donc estimée à au moins ∼28Mb dont 3.5Mb d’IES. Dans cet article, nous concluons que toutes les IES dépendent de PGM pour leur excision. En revanche, dans l’article de Guérin et al. (2017) (voir section V.2 suivante p.135), nous montrons que le génome MIC n’est pas tout a fait équivalent au génome obtenu à partir de cel- lules déplétées pour Pgm (∼3 Mb de complexité seraient éliminées indépendamment de Pgm). Au sein des∼25Mb de séquences éliminées imprécisement, nous avons caractérisé 3 types d’ET de la famille Tc1/mariner (voir section II.2.1.2 p.44) : les éléments appelés Sardine, Thon, et Anchois. Le consensus d’Anchois a été reconstruit à partir de 28 longues séquences d’IES par des méthodes basées sur l’homologie (voir section II.2.2.1 p.48). Ce résultat indique clairement un lien évolutif entre les IES et les ET.

Les IES sont petites : 93% sont inférieures à 150pb, et un tiers ont une taille entre 26 et 30pb. Dans cet article et dans la section III.3.2.1 (p.68), je commente la distribution de taille des IES et son lien avec des contraintes mécanistiques d’excision. Tirant profit du

Figure V.2 – Densité en IES sur 8 grands chromosomes MAC

Figure supplémentaire 4 de Arnaiz et al. (2012) montrant l’asymétrie de densité en IES de 8 scaffolds MAC

grand nombre de paralogues causé par les 3 WGD successives (voir section III.3.4 p.85), j’ai développé une procédure pour analyser si les IES étaient insérées aux mêmes sites dans les gènes paralogues. Dans 85% des cas, le site d’insertion d’IES est conservé entre deux paralogues de la WGD la plus récente. Par contre, les IES ne montrent aucune trace de conservation nucléotidique. Cette observation est compatible avec une évolution carac- téristique de séquences non-codantes, sans pression de sélection. De plus, nous montrons que les éléments à l’origine des IES ont envahi le génome de la paramécie avant et après les WGD. Grâce aux marqueurs temporels, que sont les WGD, nous concluons qu’une IES, après insertion, se décompose progressivement jusqu’à une taille limite de 26 pb. Autrement dit, plus une IES s’est insérée anciennement dans le génome, plus elle sera susceptible d’être courte. Dans la discussion VII.2.2.1 (p.174), nous verrons que ces ré- sultats ont été confirmés par une étude récente, utilisant une approche de génomique comparative entre IES de 9 espèces de paramécies (Sellis et al., en préparation).

Ma contribution à cette étude : Dans cette étude, mon travail a concerné les aspects computationnels. J’ai développé le logiciel MICA ainsi que la première version de MIRAA. Durant son stage de M2 et sa thèse, Cyril Denby Wilkes a repris et amélioré le code de MIRAA. J’ai réalisé les analyses sur la distribution des IES dans le génome ainsi que la distribution de tailles des IES. J’ai imaginé et conçu l’analyse sur la conservation des sites d’insertion d’IES dans les paralogues issus des DGG récente et intermédiaire. J’ai utilisé les gènes fortement exprimés pour démontrer la pression sélective sur l’insertion d’IES , ainsi que le biais de taille des IES ayant une longueur 3n sans codon terminateur en phase. J’ai participé à l’écriture de l’article.

The

Paramecium

Germline Genome Provides a Niche for

Dans le document Annotation des génomes de paramécies (Page 134-138)