• Aucun résultat trouvé

La contrepartie d’une grande profondeur de séquençage

Dans le document Annotation des génomes de paramécies (Page 190-194)

Les gènes et génomes MAC

VI.1 La contrepartie d’une grande profondeur de séquençage

D

ans la Table VI.1 (p. 160), il est remarquable que les espèces, dont les génomes MAC sont séquencés par le CFG (Consortium France Génomique), ont toujours une com- plexité supérieure aux génomes réalisés aux États-Unis. Par exemple, la souche AZ9-3 de P. primaurelia séquencée par le CFG a une complexité de génome MAC d’environ 86 Mb alors que la souche Ir4-2 de P. primaurelia séquencée par le laboratoire de M. Lynch est de 71 Mb. J’estime que la divergence entre ces deux souches est de l’ordre de 0.4% par des analyses de recherche de SNP. De manière analogue, le séquençage Sanger de la souche d4-2 de P. tetraurelia produit un génome de 72 Mb alors qu’un séquençage Illumina de la souche 51 conduit à un génome de 81 Mb. En sachant que le polymorphisme entre ces souches est minime (voir section V.1.1 p. 105), une différence de 9 Mb (ou 15 Mb pour P. primaurelia correspondant à 17% de complexité supplémentaire) est très surprenante. La Figure VI.1 (p.163) présente un scaffold MAC avec une représentation de sa densité en gènes non-codants (en orange) ainsi que les couvertures en lectures de séquençage d’ADN MAC (utilisées pour l’assemblage) et d’ARNm de cellules au stade végétatif (his- togrammes violet et rouge respectivement sur la figure). Grâce aux lectures de séquençage d’ADN contenant, en partie, des répétitions télomériques (voir section III.3.2.2 p. 74), il est possible de déduire la localisation des sites de télomérisation (en vert sur la figure). Les sites de télomérisation doivent correspondre, en théorie, aux extrémités des chromosomes MAC. Sur la figure, on constate qu’une portion du scaffold (à partir de 640 kb jusqu’à la fin) n’est que faiblement couverte par un séquençage d’ADN MAC, par rapport au reste du scaffold. De plus, de nombreux sites de télomérisation semblent être détectés dans cette région, ainsi qu’une densité en gènes non-codants anormalement élevée. Dans la section III.3.2.2 (p. 74) nous avons vu que la paramécie réarrange son génome MAC de manière imprécise et surtout alternative. Ces régions faiblement couvertes dans un ADN MAC pourraient être dues à cette variabilité de réarrangement et pourraient correspondre à des séquences MIC présentes en faible nombre de copies dans le MAC des cellules. Autres possibilités, moins probables à mon avis, est que seulement certaines cellules au sein d’une population gardent ces régions dans le MAC, ou que cet ADN proviendrait en réalité du MIC.

Alors pourquoi les trouve-t-on plus dans nos assemblages Illumina ? La réponse vien- drait simplement de la profondeur de séquençage. En effet, le CFG a séquencé beaucoup plus profondément que le laboratoire de Lynch, et cette couverture a été suffisamment im- portante pour assembler ces régions et surtout les lier aux chromosomes MAC. En réalité, certains segments de ces régions faiblement couvertes sont présents dans les assemblages Sanger ou ceux de Lynch. Cependant, elles sont souvent isolés dans de petits scaffolds et représentent un consensus de plusieurs copies. Dans le premier assemblage de P. tetraure- lia nous avons toujours considéré que l’ensemble de la complexité du génome MAC était rassemblé dans les 188 plus grands scaffolds. Toutefois, j’ai toujours eu des scrupules à enlever ces petits scaffolds car certains d’entre eux contiennent des gènes fonctionnels (par

exemple CenH3a est sur le scaffold 466 (Lhuillier-Akakpo et al. 2016)). De manière gé- nérale, je pense que l’ensemble de ces régions faiblement couvertes dans les assemblages n’existent pas réellement dans le génome, et sont très probablement chimériques ou tout au moins mal assemblées.

Pour ces nouveaux génomes, et en s’appuyant sur des représentations comme la Fi- gure VI.1 (p.163), il était tentant de délimiter ces régions. A l’aide d’une procédure de prédiction automatique complétée avec un ajustement manuel, j’ai défini deux catégories de séquences : le "MAC constitutif", les régions présentes de manière homogène dans les MAC contenant les gènes codants, et le "MAC alternatif" défini par une faible couverture en séquençage d’ADN MAC et une haute densité en gènes non-codants peu ou pas ex- primés (arc bleu extérieur sur la figure). La Table VI.1 (p. 160) indique les complexités des génomes MAC constitutifs. Avec des complexités comparables, tous les résultats sont maintenant plus cohérents. La Figure VI.2 (p.164) montre une bien meilleure corrélation entre la taille des génomes MAC et le nombre de gènes ou le nombre d’IES. Sans plus m’étendre sur le sujet, je souhaite noter la particularité de l’espèce Paramecium polycaryum avec un taux de G+C d’environ 40%, très loin des 23 à 28% habituels des autres para- mécies ou des espèces plus distantes comme Tetrahymena (∼22%) ou Oxytricha (∼31%). Il serait intéressant de creuser plus avant les raisons de cette originalité.

Il est vraiment amusant de constater qu’une grande profondeur de séquençage, tant désirée, apporte une dose de variabilité inattendue. Avec nos séquençages de populations de cellules contenant des MAC alternativement réarrangés, nous sommes probablement confrontés à la même problématique de variabilité, retrouvée lors du séquençage de cel- lules uniques (Eberwine et al. 2014).

Figure VI.1 – Représentation circulaire du scaffold 016

Représentation circos du scaffold 016 MAC de P. tetraurelia. En violet, l’histogramme de couverture en lectures Illumina de ADN MAC utilisées pour l’assemblage. En orange, la densité en gènes non-codants. En rouge, la couverture en lectures ARN-seq d’un échantillon de cellules au stade végétatif. En vert, la densité en sites de télomérisation détectés par les lectures de séquençage contenant en partie des répétitions télomériques. L’arc bleu extérieur représente la portion de séquence masquée, et donc n’appartenant pas à ce qu’on appelle le MAC constitutif.

MA

C

MA

C

c

o

n

stitutif

Figure VI.2 – Corrélation entre taille de génome et nombre de gènes ou d’IES

Un point représente le génome d’une espèce de paramécie. L’abscisse donne la complexité du génome et l’ordonnée le nombre de gènes codants (colonne de gauche) ou le nombre d’IES (co- lonne de droite). Les génomes MAC assemblés sont sur la première ligne et les génomes MAC constitutifs sur la deuxième (voir texte principal).

Dans le document Annotation des génomes de paramécies (Page 190-194)