• Aucun résultat trouvé

Recherche in silico par la combinaison des approches CQ et YGS sur le génome assemblé avec CeleraAssembler

chromosome Y d'A. nasatum

II. Tests de validation in vivo des séquences candidates Y- Y-spécifiques

2. Recherche in silico par la combinaison des approches CQ et YGS sur le génome assemblé avec CeleraAssembler

a) Approche par ratio de couverture - méthode du Chromosome Quotient (CQ)

La recherche de séquences liées au chromosome Y a été effectuée à nouveau en utilisant le génome mâle d'A. nasatum assemblé à partir des reads PacBio avec le logiciel CeleraAssembler. L'approche choisie ici était de maximiser la fiabilité de l'alignement des reads avec une stratégie d'alignement en end-to-end, implémentée dans la méthode CQ (Hall et al., 2013). Cet alignement étant effectué avec des paramètres plus stricts (end-to-end sans erreur autorisée) sur un génome pouvant contenir encore des erreurs causées par la technologie de séquençage PacBio, moins de 60% des reads (mâles et femelles) ont pu être alignés (Tableau 15). Ainsi, seulement 57% du génome est couvert par les reads de mâles et 55.5% par les reads de femelles, avec une profondeur moyenne de 32.9x et 34.9x , respectivement (Tableau 15).

130

Tableau 15 : Statistiques de l'alignement des reads de mâles et femelles sur le génome mâle assemblé à partir des données PacBio par le logiciel CeleraAssembler. La profondeur moyenne indiquée correspond au nombre de reads alignées sur un même nucléotide du génome assemblé. Les pourcentages affichés sont indiqués par rapport au nombre total de reads (issus des données Illumina).

Alignement des reads de mâles

Alignement des reads de femelles

Nombre total de reads alignés 428 827 260 70.03% 438 740 181 69.49% reads alignés appariés 389 956 220 63.66% 400 887 956 63.50% reads alignés en "paires propres" 369 715 760 60.38% 382 546 794 60.59%

% du génome aligné par les reads 56.97% 55.51%

profondeur moyenne par nucléotide 32.90x 34.89x

Afin de limiter le biais causé par la différence de quantité de reads de mâles et femelles alignés sur le génome, les valeurs d'alignement des reads de femelles ont été normalisées par le rapport entre le nombre de reads de mâles alignés sur le nombre de reads de femelles alignés. Les alignements réalisés avec les reads de mâles et de femelles semblent confirmer que les chromosomes X et Y partagent une large fraction homomorphe (Figure 37, A et B). Les contigs associés à la région spécifique au chromosome Y sont sensés présenter une faible profondeur de reads de femelles ainsi qu'une profondeur de reads de mâles hémizygote (correspondant aux points rouges sur la Figure 37, A). Or il est notable que très peu de contigs présentent un tel pattern de profondeur d'alignement (Figure 37, B). D'ailleurs, les profondeurs moyennes par contig des reads de mâles et de femelles sont fortement corrélées (test de régression linéaire : R² ajusté = 0.9726, p-value < 2.2.10-16 avec un coefficient directeur de 1.022).

L'analyse CQ présente une valeur moyenne de 1.06 (CQ médian = 1.024), indiquant que les reads de mâles et de femelles ont globalement été alignés de façon très similaire sur le génome (Figure 37, C). En se basant sur une valeur seuil de score de CQ fixée comme inférieure ou égale à 0.35 (Hall et al., 2013), nous avons néanmoins pu sélectionner 2 144 séquences Y-spécifiques candidates (représentant 12 039 722 pb, pour une taille moyenne de 5 616 pb par contig).



Figure 37 : Résultats des analyses de ratio de couverture effectuées sur le génome assemblé avec CeleraAssembler. (A) Graphique indiquant la distribution théorique de la

profondeur moyenne de chaque contig par les reads de mâles en fonction de leur profondeur moyenne par les reads de femelles. Les points indiqués en bleu correspondent à des contigs autosomaux, tandis que les points indiqués en rouge correspondent à des contigs associés au chromosome Y. (B) Graphique présentant la profondeur moyenne de chaque contig par les reads de mâles en fonction de leur profondeur moyenne par les reads de femelles. La ligne verte correspond à la droite de régression linéaire entre les deux alignements (coefficient directeur = 1.022, R² ajusté = 0.9726, p-value < 2.2.10-16. (C) Histogramme représentant la valeur de CQ obtenue pour chaque contig. La

1 3 1  C h a p itr e 2 : Id en tif ic a tio n d e q u en ce s Y -s p éc ifi q u es e t c a ra ct ér is a tio n d u c h ro m o so m e Y d 'A . n as at u m 



132

b) Approche par comparaison de k-mer - méthode du Y chromosome Genome Scanning (YGS) et influence de la taille de k-mer lors de l'analyse

Afin de réduire le nombre de faux-positifs possiblement causés par des biais d'alignement dus à la présence de nombreuses séquences répétées (cf : Résultats du Chapitre 1), une approche d'analyse par k-mer, appelée YGS (Carvalho & Clark, 2013), a été réalisée sur les mêmes données que précédemment. Cette méthode se base sur la comparaison des k-mers présents au sein du génome mâle mais absents des reads de femelles afin d'identifier des séquences Y-spécifiques candidates. En suivant les recommandations des concepteurs de cette approche, deux tailles de k-mer ont été évaluées : l'analyse a tout d'abord été effectuée en 16-mer car il s'agissait dans un premier temps du paramètre de k-16-mer le plus élevé utilisable selon nos conditions techniques (plus adaptée pour les génomes assemblés de moins de 500 Mb). L'analyse a ensuite été répétée avec un paramètre de 18-mer, qui représente un paramètre mieux adapté à la taille de notre assemblage (Carvalho & Clark, 2013). Dans les deux cas, les séquences du génome mâle n'ont été conservées dans l'analyse que si elles disposaient d'au moins 20 k-mers en copie unique. La valeur d'YGS moyenne obtenue avec le paramètre 16-mer est de 36.85% (pour une valeur médiane de 38.20%, Figure 38 A, D), indiquant une forte imprécision quant à la comparaison des k-mers entre mâle et femelle puisque les valeurs obtenues correspondant aux autosomes doivent se rapprocher de 0. Or dans la Figure 38 (A), la répartition des valeur d'YGS est relativement étalée.



 

 

Figure 38 : Comparaison des analyses YGS réalisées avec les paramètres 16-mer et 18-mer. Chaque point correspond à une séquence assemblée. (A) Représentation de la valeur YGS selon le paramètre 16-mer pour les séquences présentes dans l'assemblage d'A. nasatum avec CeleraAssembler. (B) Représentation de la valeur YGS selon le paramètre 18-mer pour les séquences présentes dans l'assemblage d'A. nasatum avec CeleraAssembler. (C) Représentation de la valeur d'YGS obtenue avec les paramètres 16-mer et 18-mer pour les différentes séquences de l'assemblage. (D) Boxplot correspondant à l'ensemble des valeurs d'YGS obtenus par contig pour les paramètres 16-mer (vert) et 18-mer (rose). Les valeurs obtenues pour l'analyse en 16-mer sont statistiquement plus élevées que celles obtenues pour l'analyse en 18-mer (test t de Student, t = 989.82, df = 343 010, p-value < 2.2.10-16).



134

Les valeurs d'YGS mesurées avec le paramètre 18-mer s'avèrent statistiquement plus faibles que celles mesurées en 16-mer (Figure 38, B, D), avec une valeur moyenne de 7.21% (valeur médiane de 5.90%). La répartition des valeurs de YGS mesurées en 18-mer s'avère donc plus proche de 0, ainsi l'augmentation du paramètre de k-mer utilisé lors de l'analyse YGS a pour effet de nettement diminuer la mesure du YGS global par contig (Figure 38, C, D). La ségrégation des contigs selon le paramètre YGS étant moins efficace avec le paramètre 16-mer qu'avec le paramètre 18-16-mer, c'est donc ce dernier qui a été retenu pour la sélection des séquences Y-spécifiques candidates en combinaison avec le paramètre CQ. Les séquences candidates ont été retenues si leur valeur d'YGS était supérieure ou égale à 35%. Ainsi, 341 contigs candidats ont été retenus, mesurant 5 983 pb en moyenne (pour une taille totale de 2 040 305 pb).

c) Combinaison des approches CQ et YGS - sélection et test des candidats Y-spécifiques

Les contigs sélectionnés à la fois selon le critère CQ  0.35 et le critère YGS  35% étaient au nombre de 111 (représentant un total de 522 214 pb, Tableau 16). Le génome assemblé avec CeleraAssembler n'ayant pas été décontaminé des séquences potentiellement bactériennes, un BLASTx effectué contre la base de données protéiques de NCBI a révélé que 26 séquences étaient assignées à des séquences bactériennes connues, diminuant le nombre de contigs candidats potentiels à 85 séquences (représentant un total de 409 388 pb, Tableau 16). Le détail de l'assignation des séquences en rapport avec leur score de CQ et d'YGS est indiqué dans la Figure 39. Ces 85 séquences ne représentent que 0.025% des séquences de l'assemblage total, et ne correspondent qu'à 0.02% de l'ensemble des nucléotides assemblé dans le génome. Ces proportions semblent ainsi confirmer l'hypothèse que les chromosomes X et Y sont peu divergents et donc encore fortement recombinants. Enfin, sur les 85 séquences candidates, 59 ont pu être testées par PCR afin de valider leur liaison au sexe mâle (les séquences des amorces sont listées dans l'Annexe III). Les 26 autres séquences candidates n'ont pas été testées car aucun couple d'amorces n'a pu être dessiné dans une zone ne présentant pas d'homologie avec d'autres séquences du génome.



Tableau 16 : Résumé des séquences candidates Y-spécifiques définies à partir des méthodes CQ et YGS. Ces analyses ont été réalisées sur le génome assemblé avec CeleraAssembler.

Nombre de

contigs

Taille totale des

contigs (pb)

CQ  0.35 2 144 12 039 722

YGS  35% 341 2 040 305

CQ  0.35  YGS  35% 111 522 214 Décontamination des séquences assignées

aux bactéries 85 409 388

Nombre de candidats testés par PCR 59 241 874

Figure 39 : Représentation de la valeur de CQ obtenue pour chaque contig en fonction de leur valeur d'YGS selon un paramètre de 18-mer. Chaque point correspond à une séquence assemblée. Les valeurs de CQ au-delà de 4.5 ne sont pas représentées. La ligne jaune verticale correspond au seuil d'YGS de 35%, tandis que la ligne jaune horizontale indique le seuil de CQ fixé à 0.35. Les 111 séquences candidates issues de ces deux analyses ont été colorées selon leur assignation taxonomique (par BLASTx).



136

Sur les 59 séquences testées en PCR, 6 ont montré des amplifications spécifiques au sexe mâle au cours des trois phases successives de tests PCR effectués (Tableau 17).

Tableau 17 : Résumé des séquences candidates Y-spécifiques restantes après les différentes phases de tests PCR effectués.

Filtres de sélection par tests PCR Nombre de séquences candidates restantes

nombre de séquences candidates 85

nombre de séquences testées en phase (i) : sur des individus

issus des mêmes familles que les individus séquencés 59

nombre de séquences testées en phase (ii) : sur des individus de familles différentes (mais partageant les mêmes

grands-parents)

53

nombre de séquences testées en phase (iii) : sur des

individus de populations différentes 9

Nombre de séquences spécifiques au sexe mâle à l'issue de

la phase (iii) 6

La grande majorité des séquences a passé avec succès le premier crible de tests (53 sur 59, soit 90%), confirmant l'efficacité des analyses in silico vis-à-vis d'individus fortement apparentés à ceux séquencés. En revanche, seulement 9 des 53 séquences restantes ont présenté des amplifications spécifiques au sexe mâle sur l'ADN d'individus de fratries différentes mais issues des mêmes grands-parents. Enfin, 6 des 9 dernières séquences ont montré des amplifications spécifiques au sexe mâle sur des individus issus de différentes populations. Les 6 séquences restantes, qui constituent de très robustes candidats pour une liaison au sexe mâle, ne représentent que 26 098 pb (correspondant à 0.0013% du génome assemblé), soulignant encore la très faible différenciation des chromosomes sexuels chez A. nasatum. Parmi ces 6 séquences, 4 ne présentaient pas de similarité avec des séquences connues dans les banques de données de NCBI (e-value seuil fixée à  10-10), tandis que les 2 autres séquences présentaient des similarités avec des séquences protéiques connues de Deutérostomiens (49% d'identité avec protéine non-caractérisée et 71% d'identité avec une protéine homologue au facteur NUBP2 impliqué dans le processus de maturation protéique).



3. Recherche in silico par la combinaison des approches CQ et YGS sur le génome

Documents relatifs