• Aucun résultat trouvé

Recherche de séquences spécifiques au chromosome Y dans le génome d'A. nasatum

chromosome Y d'A. nasatum

I. Recherche de séquences spécifiques au chromosome Y dans le génome d'A. nasatum

1. Recherche in silico par étude de ratio de couverture sur le génome assemblé avec les données Illumina

La première recherche in silico de séquences Y-spécifiques a été réalisée par comparaison de données de séquençage d'individus frères et sœurs (Figure 20) générées indépendamment. Elle consiste en une approche par un alignement (ou mapping) des reads des deux sexes sur un génome d'un sexe unique. Le ratio entre la quantité de reads de mâles et la quantité de reads de femelles alignés pour un locus donné a servi de base pour l'identification de séquences spécifiques au chromosome Y (Figure 31). En effet, le chromosome Y est absent du génome femelle et les reads de femelles ne devraient pas pouvoir être alignées sur des séquences assemblées mâle-spécifiques du chromosome Y. De plus, la région spécifique étant supposée hémizygote, les reads formant des séquences Y-spécifiques devraient être deux fois moins abondantes que les reads formant un contig/scaffold autosomal diploïde. Cette première approche a été testée sur la première version du génome assemblé uniquement à partir des données Illumina.

Ainsi, les données Illumina de mâles et de femelles ont été alignées indépendamment sur le génome mâle avec Bowtie2 (version 2.2.9, Langmead & Salzberg, 2012) en utilisant le paramètre d'alignement local "Local-very-sensitive" afin de maximiser la quantité de reads alignés. La profondeur moyenne de ces données sur le génome a été évaluée avec bamtools version 2.2.2, Barnett et al., 2011). Elle est de 39.33x pour les données femelles, et de 37.48x pour les données mâles. Une première sélection de séquences candidates Y-spécifiques a été effectuée en ne conservant que celles présentant au moins 100 pb contigües non-alignées par les données femelles. La stratégie d'alignement étant très permissive et pouvant mener à des alignements de reads erronés, toutes les séquences d'au

moins 100 pb présentant une couverture de 0 ou de 1 par nucléotide ont ainsi été conservées.

Les séquences d'origine bactérienne ont ensuite été filtrées par comparaison avec la base de données protéiques non-redondantes de NCBI (version de Décembre 2014) par BLASTx (version 2.2.23). L'assignation taxonomique des hits de BLASTx a été visualisée à partir du logiciel MEGAN (version 5.7.0, Huson et al., 2011). Toutes les séquences assignées à une origine procaryote ou fongique ont été éliminées si leur e-value était inférieure ou égale à 10-4 et ce sur au moins 80% de la longueur du hit.

Si la région spécifique au chromosome Y est absente du génome femelle, elle est aussi haploïde dans le génome d'un mâle XY. Cette haploïdie correspond à un ratio de profondeur d'alignement de x/2 où x correspond à la profondeur d'alignement d'un locus autosomique diploïde. La demie-couverture attendue des séquences décontaminées a été déterminée par une approche probabiliste à l'aide

Figure 31 : Principe de l'étude par ratio de profondeur d'alignement pour la recherche de séquences Y-spécifiques. L'ADN génomique d'individus mâles et femelles est séquencé indépendamment. Le génome mâle a ensuite été assemblé, puis les reads Illumina mâles et femelles ont été alignés sur ce génome mâle. Une séquence candidate Y-spécifique (en rouge) est définie comme ne pouvant pas être alignée contre les reads femelles et doit présenter une profondeur d'alignement deux fois inférieure à celle d'un locus autosomale diploïde (ratio de profondeur de reads = x/2).

120

de la suite mixtools (version 1.0.2, Benaglia et al., 2009) utilisée avec le logiciel R (version 3.1.1, R Core Team, 2014).

2. Recherche in silico par comparaison de ratio de couverture sur les génomes PacBio - Méthode du Chromosome Quotient (CQ)

Une approche analogue à celle décrite précédemment a été utilisée tout d'abord sur la version du génome PacBio assemblée avec CeleraAssembler, puis dans un second temps sur le génome de référence assemblé avec DBG2OLC. Cette méthode, appelée Chromosome Quotient (CQ), se base sur le ratio entre le nombre de reads de mâles et le nombre de reads de femelles alignés sur un locus donné (ratio inverse de la méthode précédente) (Hall et al., 2013). Il se calcule de la façon suivante :     avec :           

La différence principale réside dans la stratégie de cartographie, qui est non plus effectuée de façon locale, mais de façon stricte (end-to-end). L'objectif ici est de maximiser la précision de cette cartographie, et de s'assurer que les reads soient parfaitement cartographiées sur le génome mâle. La cartographie a une nouvelle fois été réalisée avec le logiciel Bowtie2 (version 2.2.9, Langmead & Salzberg, 2012) avec l'option "very-fast". Seuls les reads ayant été cartographiées parfaitement (aucune inadéquation tolérée entre le read aligné et la séquence génomique assemblée) ont été conservés pour la suite des analyses. Les reads présentant des erreurs d'alignement ont été éliminés avec le logiciel bamtools (version 2.2.2, Barnett et al., 2011). La méthode CQ prédit trois catégories de résultats : (i) les séquences autosomales ont un score de CQ centré sur 1, (ii) les séquences spécifiques au chromosome X ont un score de CQ centré sur 2 (car la

ou les régions spécifiques au chromosome X est hémizygote chez les mâles XY), et (iii) les séquences Y-spécifiques ont un score de CQ centré sur 0 (Figure 32).

Figure 32 : Principe de la méthode de détection de séquences sexe-spécifiques CQ. Les reads Illumina de mâles et de femelles sont alignés sur le génome mâle avec une stratégie d'alignement stricte. Les séquences autosomales auront un score de CQ centré autour de la valeur 1, puisqu'elles sont autant représentées dans le génome mâle que dans le génome femelle (gris). Le chromosome X étant hémizygote chez le sexe mâle, les valeurs de CQ pour ce chromosome sont centrées autour de 2 (vert). Enfin, les reads femelles ne pouvant être alignées contre des séquences assemblées mâles (Y-spécifiques), ces contigs/scaffolds auront un score de CQ centré autour de 0 (rouge).

122

Les séquences ayant un score de CQ inférieur ou égal à 0.35 (seuil légèrement moins strict que celui proposé par les concepteur de cette approche, qui était de 0.3) ont été retenues comme candidates Y-spécifiques et soumises à d'autres analyses.

3. Recherche in silico par comparaison de k-mer sur les génomes PacBio - Méthode du Y chromosome Genome Scanning (YGS)

Une approche complémentaire a été utilisée pour détecter des séquences liées au chromosome Y. Cette méthode, appelée YGS pour Y chromosome Genome Scanning (Carvalho & Clark, 2013), se base sur une comparaison des k-mers uniques présents au sein du génome mâle et ceux présents au sein des reads de femelles (Illumina). Ainsi, les contigs/scaffolds candidats Y-spécifiques sont ceux pour lesquels les mers des reads de femelles ne correspondent pas aux k-mers présents au sein des séquences mâles assemblées (Figure 33).

Figure 33 : Schéma de la méthode Y chromosome Genome Scanning (YGS). Les séquences liées au Y sont identifiées par la comparaison des k-mers présents au sein du génome mâle et ceux présents au seins des reads femelles (Illumina). Les k-mers des séquences Y-spécifiques ne devraient pas correspondre aux k-mers des reads de femelles (pic rouge sur le graphique), tandis que les séquences autosomales ou liées au X sont totalement couvertes par les k-mers des reads de femelles (pic gris sur le graphique).

Selon les recommandations des concepteurs de la méthode YGS, les génomes de très grande taille (comme celui d'A. nasatum) sont analysés plus précisément (diminution des faux-positifs) en comparant des k-mers de plus grande taille (Carvalho & Clark, 2013). Ainsi, afin de déterminer le paramètre de k-mer idéal pour la suite des analyses YGS, une comparaison des 16-mers et des 18-mers a été effectuée sur le génome PacBio assemblé avec CeleraAssembler. Seule une comparaison des 18-mers a été effectuée sur l'assemblage réalisé avec DBG2OLC puisque ce paramètre a été considéré comme optimal vis-à-vis de l'assemblage. Cependant, des risques de faux-positifs peuvent apparaître lorsqu'un faible nombre de k-mer uniques sont détectés au sein des contigs/scaffolds mâles, ainsi le nombre minimal de k-mer uniques présents par séquence a été fixé à au moins 20 avec Jellyfish (version 2.2.6, Marçais & Kingsford, 2011). Le seuil retenu pour considérer des séquences candidates était un score d'YGS d'au moins 35%.

II. Tests de validation in vivo des séquences candidates

Documents relatifs