Matériel et méthode - Génomique épidémiologique de Salmonella

Matériel

Les données de métagénomique ont été extraites à partir des dents et des os d’un squelette (SK152) d’une jeune femme (molaire supérieure droite [200 mg], pulpe radiculaire intérieur [200 mg], os fémoral [300 mg], et mélange de plaque dentaire minéralisée [30 mg] prélevé sur plusieurs dents) découvert à Trondheim en Norvège. Cette jeune femme était âgée d’une vingtaine d’années et serait décédée il y a plus de 800 ans selon les datation (figure 23).

Figure 23. Caractéristiques géographiques, archéologiques et métagénomiques du squelette Ragna.

a) Site d’excavation (Folkebibilotekstomten, 1973-1985) du cimetière de l’église de St. Olav à Trandheim, en Norvège. b) Squelette entier (en haut) et os long fémoral plus deux dents à partir desquels l’ADN de Salmonella était extrait (en bas). c) Carte de l’Europe entourant la Norvège (en vert).

121 Séquençage métagénomique du squelette

Toutes les manipulations moléculaires, y compris la préparation des librairies ont été menées dans des laboratoires propres dédiés au GeoGenetics Center du Musée d’Histoire Naturelle de l’Université de Copenhague. Tous les échantillons ont été collectés et traités en appliquant des protocoles strictes pour les ADN anciens (ADNa). Les banques ont été séquencées avec le Hiseq (Illumina) avec 15 passages.

Assemblage génomique des séquences de métagénomique

L’étude taxonomique des séquences de métagénomique par les méthodes traditionnelles actuellement disponibles peut conduire à des erreurs quant à la détection de pathogènes bactériens. En effet, les pathogènes sont sur-représentés dans les bases de données publiques par rapport aux organismes environnementaux et les génomes complets de nombreuses bactéries environnementales ne sont pas encore disponibles. Par conséquent, l’approche de l’assemblage de novo à partir des données brutes est souvent privilégiée. Cette approche a été utlisée afin de mettre en évidence la présence de pathogènes bactériens, à partir de neuf banques de métagénomique de SK152.

Tous les reads s’alignant avec le génome humain selon BWA137 ont été exclus. Les reads non-humains ont été assemblés en séquences consensus (contigs) avec MEGAHIT215, en utilisant les paramètres par défaut. Tous les contigs dont la taille était supérieure à 20 kb ont été divisés en fragments de 10 kb. Les 39,016 contigs (>1 kb) ont été groupés par CONCOCT216

en 76 groupes selon la composition de la séquence et leur couverture. Les protéines codant pour ces séquences ont été définits par PRODIGAL217 et leur fonction classée selon le Clusters of Orthologous Groups of proteins (COGs)218.

Genotyping par Enterobase

EnteroBase assemble automatiquement tous les génomes dont les séquences Ilumina ont été rendues publics. Pour cela, il utilise un pipeline utilisant SPAdes132 pour l’assemblage et le post-assemblage (détection des SNPs par alignement des reads aux contigs formés). Les assemblages ayant passé les critères de qualités : les couvertures ≥ 20 X sont automatiquement génotypés par la méthode du MLST (sept gènes de ménage ; 51 protéines ribosomales [rMLST] ; 21,065 gènes du pangénome [wgMLST] et 3,002 core-gènes [cgMLST]).

122 Arbre phylogénétique de S. enterica sous-espèce I

Une collection de 50,000 génomes représentant toute la diversité génétique de S. enterica sous-espèce I ont été choisis aléatoirement parmi les 2,964 rMLST STs dans EnteroBase (Mai 2016). Ces génomes sont disponibles sur EnteroBase. Des arbres phylogénétiques ont été réalisés à partir des séquences des 3,002 core-gènes (EnteroBase schéma cgMLST v2). Les

séquences de chaque core-gène ont été alignées avec MAFFT219. Deux algorithmes ont été

utilisés pour ces alignements : i) un arbre maximum de vraissemblance basé sur un multifasta d’alignement de toutes les séquences du core-génome (2.8 Mb) et le modèle GTRCAT a été généré en utilisant un RAxML v8.2.442. ii) Un autre arbre de maximum de vraissemblance a été généré en utilisant RAxML pour chacun des 3,002 alignements des

core-gènes eux-même analysés par ASTRID.220

Origine des génomes de la lignée Para C

Les 100 génomes d’EnteroBase appartenant à la lignée Para C proviennent de souches épidémiologiquement récentes (PHE, R.-U. et FDA Etats-Unis), mais également de souches séquencées par le Sanger Center (MLST legacy) ou de la collection historique de Murray. Afin d’obtenir des isolats ayant une diversité temporelle, 119 isolats anciens provenant de la collection de l’Unité des Bactéries Pathogènes Entériques (Institut Pasteur, Paris) ont été séquencés et implémentés à la base de données d’EnteroBase.

Identification de l’ADNa de Paratyphi C au sein des données de métagénomique

Une analyse initiale de métagénomique sur des séquences de 33 squelettes humains (Trondheim, Norvège) a été réalisée en utilisant KRAKEN221 et ses paramètres par défaut. KRAKEN a identifié 304 séquences métagénomiques de Salmonella pour le squelette SK152. Ces séquences ont été alignées à 91,000 génomes (bactérien, archée, viral) de la base de données de GenBank avec BLASTn.

Identification des séquences spécifiques à Ragna

Les séquences ont été analysées dans un premier temps avec BBMERGe et BBDUK2 du module BBMAP.222 Les séquences spécifiques à Ragna ont ensuite été identifiées en les alignant à deux génomes de référence dont RKS4594 (génome de référence de Paratyphi C) en utilisant BOWTIE2 et SAMtools/BCFtools 1.2.

123 Détection des SNPs pour les génomes récents

Les assemblages de la lignée Para C et de Birkenhead ont été alignés contre RKS4594 en utilisant LAST223 et les SNPs filtrés (base ayant une qualité < 10 et les alignements ambigus > 0.1). Les régions dont l’alignement correspond aux séquences répétées (taille > 100 bp) (BLASTn) ou aux loci CRISPR (PILER-CR224), à plus de 95% ont été supprimées. Avec ces paramètres, 61,451 SNPs ont été retenus.

Reconstruction phylogénétique de la lignée Para C

A partir du core-génome SNPs, un arbre phylogénétique a été généré en utilisant RAxML v8.2.4, en utilisant un modèle GTRCAT et Stamatakis pour la correction des sites invariants.

Datation de Paratyphi c et de la lignée ParaC

La méthode bayésienne BEAST v1.8.3 (modèle GTR+G) a été utilisée pour générer des arbres phylogénétiques datés.

Analyses génétiques

Tous les gènes présentant un codon stop ou un changement de cadre de lecture au niveau des régions codantes ont été définis comme pseudogènes. Les prophages de la lignée Para C ont été identifiés par PHASTER. BLASTn a permis l’identification des ilots génomiques au sein du pan-génome. Les séquences ilots génomiques de référence (SPI-1 à SPI-12) ont été téléchargées sur PAIDB225. Tous les gènes du pan-génome sont passés par ISfinder (séquences d’insertion) PlasmidFinder 1.3 (groupes d’incompatibilité plasmidique) et CONJscanT4SSscan (relaxases et système de sécrétion de type IV).

Accessibilité des données

Les séquences des 119 souches de la collection de l’Institut Pasteur ont été déposées sur le site de NCBI sous le numéro d’accession PRJEB19916. Tous les génomes mentionnés dans cette étude sont disponibles sur EnteroBase au nom de « rST representatives » (2,964 génomes) et « Para C Lineage ».

124

Dans le document Génomique épidémiologique de Salmonella (Page 121-125)