• Aucun résultat trouvé

Seules les méthodes non décrites dans l’article seront détaillées ici.

4.2.1

Choix de l’outil d’assemblage

Principe

Un bon assemblage permet d’obtenir un génome le plus proche possible de la réalité avec peu de contigs (un seul dans le cas idéal). Lors d’un mauvais assemblage, il est possible que des portions de génomes soient mal positionnées et que des gènes soient absents ou tronqués. Il est

donc important de trouver le meilleur logiciel et les meilleurs paramètres pour un assemblage optimal.

Ici, trois logiciels d’assemblage que sont Ray [115], MIRA [116] et SPAdes [117] sont compa- rés. Le génome de DHS01 qui sert de référence est complet et circulaire. Il a été re-séquencé en Illumina NextSeq, de la même manière que les autres génomes. Les différents assemblages de DHS01 générés par les logiciels et paramètres testés seront comparés au génome complet PacBio. Le meilleur assembleur et les paramètres associés seront utilisés pour l’assemblage des 53 autres génomes.

Choix des paramètres

Les données de départ possédant une profondeur d’environ 200X, le premier paramètre qui va être testé est l’effet de la profondeur de séquençage sur l’assemblage. Pour cela, des sous- échantillonnages à 60X, 80X et 100X vont être testés. En effet, une trop faible couverture ne permet pas d’assembler les génomes alors qu’une trop forte couverture rend difficile l’assem- blage avec des temps de calculs longs, beaucoup de mémoire requise, des fichiers volumineux créés, plus d’erreurs générées qui rendent les graphes (utilisés par les logiciels d’assemblage) difficiles à résoudre.

Le logiciel SPAdes inclut un module de correction des reads (automatique pour ce logiciel) dont l’efficacité sera testée pour les deux autres logiciels.

Un dernier paramètre est spécifique à Ray, et correspond à une taille de k-mer (mots de longueurs k correspondant à k paires de bases) utilisée pour l’assemblage. Trois tailles de k-mer différentes (61, 77 et 101 bp) seront testées. Au total, 3 tests seront faits avec SPAdes, 6 avec MIRA et 18 avec Ray.

Outils de comparaison

QUAST [169] est utilisé pour évaluer les assemblages. Il compare la taille et le nombre de contigs, la présence de contigs mal assemblés, le nombre de mauvais assemblages et d’indels pour 100 bp, le nombre de contigs non alignés sur la référence (contigs créés par l’assemblage mais n’existant pas réellement) et le nombre de gènes de la référence retrouvés intacts (com- plets sur un contig unique).

Résultats des tests

Les résultats de comparaison obtenus par QUAST sont disponibles dans le tableau 4.1). On observe une faible proportion de longs contigs (>= 50000 bp), mais représentant une grande part du génome assemblé par Ray et SPAdes, alors que les plus longs contigs de MIRA correspondent à moins de la moitié du génome assemblé. De plus, MIRA génère plus de contigs, pour la plupart de taille inférieure à 25000 bp.

Lors de l’assemblage par Ray, plusieurs contigs sont mal assemblés, presque 1 Mbp pour le sous-échantillonnage à 100X, entre 350 kbp et 1 Mbp pour celui à 80X et entre 299 kbp et 640 kbp pour celui à 60X. En revanche, aucun contig mal assemblé n’est retrouvé dans les assemblages générés par SPAdes. On retrouve par contre pour ce dernier, une portion du

Tableau 4.1 – Optimisation de paramètres d’assemblage des reads Illumina. Les noms de lignes réfèrent aux noms du logiciel suivi de la profondeur (60X, 80X ou 100X), puis s’il y a correction des reads par corr et enfin, pour Ray de la valeur de k-mer.

C’est donc SPAdes qui est utilisé pour l’assemblage des 53 génomes de P. aeruginosa ST395 épidémique. Le sous-échantillonnage choisi est 80X puisque cela permet d’avoir un compromis entre un bon N50 (correspondant à la taille du contig pour laquelle la somme de tous les contigs de taille supérieure représente au moins la moitié de la taille du génome), un nombre correct de gènes entiers détectés et un faible nombre de contigs non alignés sur la référence.

4.2.2

Construction d’une base de données

Pour comprendre l’évolution de la bactérie au cours du temps, et pouvoir comparer les gé- nomes, le pangénome de la collection a été créé. Cela correspond à l’ensemble des séquences présentes dans au moins un génome. En d’autres termes, c’est une base de données regrou- pant tous les gènes présents dans le clone au cours de l’épidémie. Ensuite, en utilisant cette base de données comme référence, il est possible de dire si chacun des gènes est présent ou non dans les différents génomes et de voir l’apparition ou la disparition de blocs de gènes au cours du temps. Il est également possible d’observer les mutations présentes chez chaque isolat.

Le pangénome va contenir à la fois le génome de DHS01 complet ainsi que toutes les portions venant des autres génomes mais n’appartenant pas à DHS01. Le logiciel Ragout [170] permet à partir des contigs d’un génome et d’une référence de faire du scaffolding (regroupement de contigs ordonnés séparés par des gaps de taille connue). Il va ensuite produire si possible un génome circulaire comportant des Ns. Les contigs non placés par rapport à la référence (donc non inclus dans le scaffold) seront dans un fichier séparé.

Les étapes 1 à 6 sont appliquées à chacun des génomes (figure 4.1) : (1) utilisation de Ragout pour obtenir le scaffold, (2) on compare le scaffold obtenu avec la référence (alignement du scaffold et de DHS01 avec nucmer [171]) et (3) on ne conserve que les portions non présentes dans la référence. Pour les séquences non placées, (4) on vérifie (à l’aide de nucmer) qu’elles n’existent pas déjà dans le génome de référence et si ce n’est pas le cas, (5) on les conserve. La dernière étape (6) est l’alignement du pangénome sur lui même (avec nucmer) pour vérifier qu’il n’y a pas de redondance.

Documents relatifs