Analyses in silico des séquences

www.codoncode.com

1. Contrôle de qualité des séquences Sanger et regroupement en UTOs

Les extrémités de basse qualité des séquences produites par la méthode Sanger ont été

automatiquement éliminées grâce au logiciel CodonCode aligner (CodonCode Corporation ;

). Dans le cas des fragments séquencés dans leur intégralité, les contigs

ont été assemblés avec les paramètres par défaut de CodonCode aligner. Les

chromatogrammes de séquençage ont été vérifiés manuellement pour corriger les positions

ambiguës. Dans le cadre des analyses moléculaires par amplification, clonage et séquençage

(Sanger), un fichier de données a été construit avec les séquences d’ADNr 18S + ITS

générées par PCR directe sur cellules individuelles et les séquences des banques de clones. Le

jeu de séquences a été aligné avec le logiciel MAFFT (Katoh et al. 2002). Pour détecter des

séquences chimériques, l’alignement a été analysé avec un ensemble d’algorithmes de

détection d’événements de recombinaison implémenté dans le logiciel RDP v.4.14

(Recombination Detection Program, Martin et al. 2005). Si des événements de recombinaison

étaient détectés entre des séquences attribuées à des espèces décrites de familles différentes,

elles étaient considérées comme chimériques et éliminées du jeu de données. Les séquences

ont été comparées par BLAST (Altschul et al. 1997) avec notre base de données de référence

comprenant les séquences d’ADNr 18S et des régions ITS générées par PCR directe à partir

des cellules individuelles des morpho-espèces de tintinnidés de référence (partie IV.A). Les

UTOs ont été définies comme des groupes de séquences d’ADNr 18S seul ou avec la région

des ITS partageant plus de 99% d’identité.

2. Reconstruction d'arbres phylogénétiques

Dans le cadre de l’étude de phylogénie moléculaire des tintinnidés (partie IV.A), un

fichier de données a été construit avec les séquences d’ADNr 18S générées par PCR directe

sur cellules individuelles, les séquences affiliées à l’ordre des Tintinnida disponibles sur

GenBank (http://www.ncbi.nlm.nih.gov/) et des séquences de ciliés choreotrichidés ou

oligotrichidés. Le jeu de séquences a été aligné avec le logiciel MAFFT (Katoh et al. 2002).

Le choix des positions alignées sans ambiguïté s’est fait à la main avec l’ensemble de

logiciels MUST (Philippe 1993), ou des méthodes automatisées telles que GBLOCKS

(Castresana 2000) ou BMGE (Criscuolo et Gribaldo 2010) en utilisant les paramètres par

défaut. Des analyses phylogénétiques ont ensuite été réalisées par maximum de vraisemblance

(MV) avec le logiciel Treefinder (Jobb et al. 2004) ou par approche bayésienne (MB) avec le

logiciel MrBayes (Huelsenbeck et Ronquist 2001). L’inférence phylogénétique par MV a été

réalisée en appliquant un modèle GTR (General Time Reversible) d’évolution des séquences

avec une loi gamma pour tenir compte des différentes vitesses d’évolution entre sites et 4

catégories de sites auxquelles s’ajoutent des sites invariables. Les valeurs des bootstraps,

mesurant le support statistique des nœuds de l’arbre, ont été calculées en utilisant 1 000

pseudo-réplicats sous le même modèle d’évolution. L’inférence phylogénétique par MB a été

réalisée avec 4 cycles indépendants et 1 000 000 d’itérations par cycle. Après échantillonnage

des topologies obtenues dans le plateau des choix optimaux et élimination des 3 500 premiers

arbres, un arbre consensus a été reconstruit avec l’échantillonnage d’un arbre toutes les 1 000

itérations. Des comparaisons de topologies ont été faites en appliquant le test Approximately

Unbiaised (AU) (Shimodaira 2002) qui permet de tester statistiquement la vraisemblance

d’hypothèses évolutives alternatives. Les arbres obtenus ont été visualisés avec le logiciel

FIGTREE (Rambaut 2009).

Dans le cadre des études de diversité à partir d’ADN environnemental (parties IV.B et

IV.C), un fichier de données a été construit avec les séquences générées par les différentes

méthodes de séquençage. Des analyses phylogénétiques préliminaires ont été réalisées par une

méthode de distance en « neighbor-joining » (NJ) avec l’ensemble de logiciels MUST. À

partir des arbres préliminaires, une séquence représentative par UTO est sélectionnée. Les

UTOs ont été définies comme des groupes de séquences partageant plus de 99% de similarité

(voir parties IV.A et IV.B), valeur qui permet de discriminer efficacement les différentes

espèces de tintinnidés rencontrées dans la rade. Ces séquences représentatives ont ensuite été

réalignées avec les séquences de référence les plus proches, majoritairement générées par

l’étude de la partie IV.A. Des analyses phylogénétiques par maximum de vraisemblance

comme décrit ci-dessus ont été réalisées.

3. Filtrage et débruitage des pyroséquences

Dans le cadre de l’étude environnementale réalisée dans la partie IV.B, les séquences

générées par pyroséquençage nécessitent des étapes de filtration et de débruitage afin de

corriger les erreurs de séquençage systématiquement produites par les plateformes de

pyroséquençage. Nous avons préparé un jeu de pyroséquences par échantillon (identifié par

des MIDs spécifiques) et par marqueur moléculaire (ADNr 18S vs ITS). Les séquences

présentant des sites ambigus (N) ou des erreurs de séquençage dans la partie des amorces et

celles qui ne couvrent pas la totalité du marqueur amplifié ont été éliminées. Les séquences

ont été comparées par BLAST (Altschul et al. 1997) avec notre base de données de référence

comprenant les séquences d’ADNr 18S et des régions ITS générées par amplification directe

par PCR à partir des cellules individuelles des morpho-espèces de tintinnidés de référence

(partie IV.A). Les pyroséquences dont la première sortie présente moins de 97% de similarité

avec les séquences de référence sont vérifiées par analyse phylogénétique rapide par NJ. Si

elles branchent parmi les tintinnidés, elles ont été gardées, sinon, elles ont été exclues. La

possibilité de présence de séquences chimériques est vérifiée avec le programme

ChimeraSlayer (Haas et al. 2011) implémenté dans Mothur (Schloss et al. 2009). Une matrice

de distance a été générée par comparaison des séquences deux à deux (Pair-wise distance) à

l’aide du module NDIST implémenté dans le programme AmpliconNoise (Quince et al.

2011). Les erreurs de séquençage ont été corrigées soit par les méthodes d’agglomération SLP

(Huse et al. 2010) ou CD-HIT-OTU (Wu et al. 2011;

http://weizhong-lab.ucsd.edu/metagenomic-analysis/server/cd-hit-otu/), soit par la méthode probabiliste

itérative AmpliconNoise (Quince et al. 2011). Les UTOs ont été définies comme des groupes

de pyroséquences d’ADNr 18S ou d’ITS partageant plus de 99% d’identité.

4. Analyses statistiques des données génétiques intra-spécifiques