• Aucun résultat trouvé

Les génomes MIC

Dans le document Annotation des génomes de paramécies (Page 198-200)

L

e génome MAC commence à être bien caractérisé. En revanche, la structure et la com- position du génome MIC, de par son accessibilité difficile, restent encore peu connus. Pour caractériser ses éléments spécifiques, nous comparons (bioinformatiquement), à la ma- nière de la paramécie, des séquences germinales non réarrangées au génome somatique réarrangé.

VII.1 Les chromosomes MIC

L

’article de Guérin et al. (2017) a posé le principe de la méthode de purification de noyaux MIC végétatifs. L’échantillon contenait suffisamment de matériel d’ADN purifié pour être séquencé et assemblé. Bien que fragmenté, l’assemblage a apporté des éléments intéressants comme la taille du génome MIC de P. tetraurelia (∼100 Mb) ou la découverte de nouvelles familles d’ET. Il a également révélé que certaines séquences du génome MIC éliminées pendant les réarrangements étaient absentes dans un séquençage d’ébauches en développement de cellules déplétées en PGM (ADN PGM) (voir section V.2 des résultats p. 135). Cet essai concluant a prouvé l’utilité et le bénéfice d’avoir un échantillon d’ADN micronucléaire afin d’accéder au génome MIC dans son ensemble. Frédéric Guérin, du CFG, a purifié les noyaux MIC de 7 nouvelles espèces de paramécie pour le séquençage (voir Table VI.1 p. 160).

VII.1.1 Assemblage des génomes MIC

P

out réaliser le meilleur assemblage possible, le CFG a adopté la stratégie de séquen- çage suivante : (1) Séquençage très profond des échantillons d’ADN MIC en Illumina avec des lectures pairées de 250 nt de fragments de 400pb (2) Annotation des IES grâce au logiciel ParTIES (Denby Wilkes et al. 2016) (3) afin d’aider l’assembleur, élimination de l’ambiguïté apportée par les lectures provenant de l’ancien MAC au niveau des IES (voir section V.1.1 des résultats p. 105). Au fur et à mesure, F. Guérin a amélioré la pureté des échantillons et ce nettoyage n’a eu possiblement que peu d’impact sur les derniers

échantillons. (4) Fusion des lectures chevauchantes pour former des séquences de 400 pb de haute qualité. (5) Assemblage des lectures MIC à l’aide d’un assembleur OLC (voir section I.3.3 p. 26) (6) Ne pouvant obtenir des quantités d’ADN MIC suffisantes pour des banques de fragments longues distances, nous avons opté pour un séquençage mate- pair Illumina d’un ADN PGM (au moins 3 tailles de fragments). Nous étions conscients des limites de ces échantillons d’ADN PGM mais, au moment du séquençage, c’était la meilleure option.

Toute cette procédure est assez complexe et assez coûteuse. Dans l’avenir, il est pro- bable que nous essaierons d’avoir recours à des stratégies plus simples et à l’utilisation de séquenceurs de troisième génération (voir section I.3.2.3 p. 23). Malgré le taux d’erreur, les lectures longues pourront résoudre un certain nombre de problèmes que nous allons aborder dans le paragraphe suivant. Toutefois, il est vrai que la faible quantité de matériel génétique purifiable reste un problème majeur à résoudre. Aujourd’hui, ces technologies requièrent des concentrations d’ADN MIC que nous ne sommes pas encore en mesure de fournir (quelques µg). Pourtant des données préliminaires montrent des résultats en- courageants d’assemblage de novo de lectures longues ONT sur des cellules déplétées en Pgm ou en Ezl1. Toutes ces méthodes sont en constante évolution. A l’image des projets de séquençage de cellules uniques, le rêve serait de mettre un MIC dans un tube et de séquencer l’ADN qu’il contient...

VII.1.2 Quelle est la structure des chromosomes ?

L

a Table VI.1 (p. 160) donne des statistiques sur 7 assemblages MIC obtenus (P. biaurelia, P. octaurelia, P. pentaurelia, P. primaurelia, P. sexaurelia, P. tetraurelia et pour P. sonneborni nous ne disposons que de contigs). Malheureusement, pour les espèces P. caudatum et P. tredecaurelia nous n’avons pas pu obtenir de scaffolds. Les séquençages des échantillons MIC ont permis, néanmoins, d’annoter les IES de ces génomes (voir section VII.2.2.1 suivante p. 174).

Tous les génomes MIC d’espèces du groupe aurelia semblent avoir une complexité d’environ 100 Mb (voir Table VI.1 p. 160). Il faut noter néanmoins la particularité du gé- nome de P. sonneborni dont les∼200 Mb seraient liées, d’après des analyses préliminaires (de L. Duret, E. Meyer et L. Sperling), à des phénomènes d’introgression de matériel géné- tique provenant d’espèces du groupe aurelia. En revanche, tous les scaffolds, de l’ensemble des génomes MIC, n’excèdent pas une taille maximum de ∼1.1 Mb, une longueur com- parable aux scaffolds MAC. Même si les statistiques globales de qualité d’assemblage sont loin d’être honteuses, nous avons été déçu par ces résultats. Nous espérions assembler les chromosomes MIC. Comme discuté par Duret et al. (2008), chaque scaffold MIC, borné par des séquences télomériques, aurait rejoint deux (ou plus) chromosomes MAC. Or nous observons que les scaffolds MIC sont plus ou moins comparables aux scaffolds MAC. Il est vrai que les scaffolds MIC portent plusieurs milliers de Kb supplémentaires, notamment aux extrémités. Dans la section VII.2 suivante (p. 172), nous verrons ce que

contiennent ces séquences MIC. Cependant, la question de la structure des chromosomes MIC demeure. Est ce que les chromosomes MIC sont, en effet, équivalents aux chromo- somes MAC ? Ou bien est ce que malgré nos efforts, nous nous heurtons toujours aux mêmes problèmes d’assemblage au niveau probablement de répétitions complexes.

Seul marqueur de la fin des chromosomes, nous n’avons aucune certitude sur ce qu’est un télomère MIC (voir section I.2.1 p. 7). Ils pourraient être équivalents aux télomères MAC (voir sections III.3.2.2 p. 74), ou composés de répétitions complètement différentes. Pourtant des évidences préliminaires semblent nous apporter quelques éléments de ré- ponse. Des lectures longues ONT portant des répétitions télomériques (semblables à celles des MAC), alignées sur l’assemblage MIC et l’utilisation d’assemblages de novo de lectures ONT suggéreraient que les scaffolds MIC s’interrompraient juste avant les extrémités des chromosomes. Des cartes de recombinaison réalisées par Laurent Duret iraient également dans ce sens. Je garde bon espoir que nous parviendrons prochainement à estimer le nombre de chromosomes MIC de la paramécie.

Autre élément structurant les chromosomes : les centromères. Sur ce sujet, le mystère est encore plus grand que pour les télomères. Nous n’avons aucune idée de ce qu’est un centromère de paramécie (voir sections I.2.1 p. 7 et III.3.1 p. 64). Les chromosomes MIC, sont ils monocentriques ou holocentriques ? Si les centromères sont composés de séquences de basse complexité, il est possible que ces séquences ne soient tout simple- ment pas dans l’assemblage et que les scaffolds s’interrompent à ces loci. Lhuillier- Akakpo et al. (2016) ont démontré que le marquage du variant de l’histone H3 centro- mérique (CenH3) disparaissait au cours du développement macronucléaire. L’inactivation des gènes PGM ou EZL1 (voir section III.3.2.3 p. 75) empêche la disparition du marquage CenH3, suggérant que la perte des séquences centromériques est causée par l’élimination d’ADN pendant les réarrangements programmés. Les séquences centromériques ont donc un comportement similaire aux IES. Il est donc envisageable que toutes ou une partie des IES jouent le rôle de centromères. Les procédures de ChIP-seq sur des modifications d’his- tones ont été mises au point chez la paramécie (Frapporti et al. 2019). Il serait intéressant de tenter de sélectionner les séquences centromériques associées à CenH3. L’exploitation des données pourrait être assez acrobatique en raison de la nature vraisemblablement répétée des centromères. Encore une fois, l’apport d’un séquençage de lectures longues pourrait lever un certain nombre d’ambiguïtés.

Dans le document Annotation des génomes de paramécies (Page 198-200)