1. Contrôle de qualité des séquences Sanger et regroupement en UTOs
Les extrémités de basse qualité des séquences produites par la méthode Sanger ont été
automatiquement éliminées grâce au logiciel CodonCode aligner (CodonCode Corporation ;
www.codoncode.com
). Dans le cas des fragments séquencés dans leur intégralité, les contigs
ont été assemblés avec les paramètres par défaut de CodonCode aligner. Les
chromatogrammes de séquençage ont été vérifiés manuellement pour corriger les positions
ambiguës. Dans le cadre des analyses moléculaires par amplification, clonage et séquençage
(Sanger), un fichier de données a été construit avec les séquences d’ADNr 18S + ITS
générées par PCR directe sur cellules individuelles et les séquences des banques de clones. Le
jeu de séquences a été aligné avec le logiciel MAFFT (Katoh et al. 2002). Pour détecter des
séquences chimériques, l’alignement a été analysé avec un ensemble d’algorithmes de
détection d’événements de recombinaison implémenté dans le logiciel RDP v.4.14
(Recombination Detection Program, Martin et al. 2005). Si des événements de recombinaison
étaient détectés entre des séquences attribuées à des espèces décrites de familles différentes,
elles étaient considérées comme chimériques et éliminées du jeu de données. Les séquences
ont été comparées par BLAST (Altschul et al. 1997) avec notre base de données de référence
comprenant les séquences d’ADNr 18S et des régions ITS générées par PCR directe à partir
des cellules individuelles des morpho-espèces de tintinnidés de référence (partie IV.A). Les
UTOs ont été définies comme des groupes de séquences d’ADNr 18S seul ou avec la région
des ITS partageant plus de 99% d’identité.
2. Reconstruction d'arbres phylogénétiques
Dans le cadre de l’étude de phylogénie moléculaire des tintinnidés (partie IV.A), un
fichier de données a été construit avec les séquences d’ADNr 18S générées par PCR directe
sur cellules individuelles, les séquences affiliées à l’ordre des Tintinnida disponibles sur
GenBank (http://www.ncbi.nlm.nih.gov/) et des séquences de ciliés choreotrichidés ou
oligotrichidés. Le jeu de séquences a été aligné avec le logiciel MAFFT (Katoh et al. 2002).
Le choix des positions alignées sans ambiguïté s’est fait à la main avec l’ensemble de
logiciels MUST (Philippe 1993), ou des méthodes automatisées telles que GBLOCKS
(Castresana 2000) ou BMGE (Criscuolo et Gribaldo 2010) en utilisant les paramètres par
défaut. Des analyses phylogénétiques ont ensuite été réalisées par maximum de vraisemblance
(MV) avec le logiciel Treefinder (Jobb et al. 2004) ou par approche bayésienne (MB) avec le
logiciel MrBayes (Huelsenbeck et Ronquist 2001). L’inférence phylogénétique par MV a été
réalisée en appliquant un modèle GTR (General Time Reversible) d’évolution des séquences
avec une loi gamma pour tenir compte des différentes vitesses d’évolution entre sites et 4
catégories de sites auxquelles s’ajoutent des sites invariables. Les valeurs des bootstraps,
mesurant le support statistique des nœuds de l’arbre, ont été calculées en utilisant 1 000
pseudo-réplicats sous le même modèle d’évolution. L’inférence phylogénétique par MB a été
réalisée avec 4 cycles indépendants et 1 000 000 d’itérations par cycle. Après échantillonnage
des topologies obtenues dans le plateau des choix optimaux et élimination des 3 500 premiers
arbres, un arbre consensus a été reconstruit avec l’échantillonnage d’un arbre toutes les 1 000
itérations. Des comparaisons de topologies ont été faites en appliquant le test Approximately
Unbiaised (AU) (Shimodaira 2002) qui permet de tester statistiquement la vraisemblance
d’hypothèses évolutives alternatives. Les arbres obtenus ont été visualisés avec le logiciel
FIGTREE (Rambaut 2009).
Dans le cadre des études de diversité à partir d’ADN environnemental (parties IV.B et
IV.C), un fichier de données a été construit avec les séquences générées par les différentes
méthodes de séquençage. Des analyses phylogénétiques préliminaires ont été réalisées par une
méthode de distance en « neighbor-joining » (NJ) avec l’ensemble de logiciels MUST. À
partir des arbres préliminaires, une séquence représentative par UTO est sélectionnée. Les
UTOs ont été définies comme des groupes de séquences partageant plus de 99% de similarité
(voir parties IV.A et IV.B), valeur qui permet de discriminer efficacement les différentes
espèces de tintinnidés rencontrées dans la rade. Ces séquences représentatives ont ensuite été
réalignées avec les séquences de référence les plus proches, majoritairement générées par
l’étude de la partie IV.A. Des analyses phylogénétiques par maximum de vraisemblance
comme décrit ci-dessus ont été réalisées.
3. Filtrage et débruitage des pyroséquences
Dans le cadre de l’étude environnementale réalisée dans la partie IV.B, les séquences
générées par pyroséquençage nécessitent des étapes de filtration et de débruitage afin de
corriger les erreurs de séquençage systématiquement produites par les plateformes de
pyroséquençage. Nous avons préparé un jeu de pyroséquences par échantillon (identifié par
des MIDs spécifiques) et par marqueur moléculaire (ADNr 18S vs ITS). Les séquences
présentant des sites ambigus (N) ou des erreurs de séquençage dans la partie des amorces et
celles qui ne couvrent pas la totalité du marqueur amplifié ont été éliminées. Les séquences
ont été comparées par BLAST (Altschul et al. 1997) avec notre base de données de référence
comprenant les séquences d’ADNr 18S et des régions ITS générées par amplification directe
par PCR à partir des cellules individuelles des morpho-espèces de tintinnidés de référence
(partie IV.A). Les pyroséquences dont la première sortie présente moins de 97% de similarité
avec les séquences de référence sont vérifiées par analyse phylogénétique rapide par NJ. Si
elles branchent parmi les tintinnidés, elles ont été gardées, sinon, elles ont été exclues. La
possibilité de présence de séquences chimériques est vérifiée avec le programme
ChimeraSlayer (Haas et al. 2011) implémenté dans Mothur (Schloss et al. 2009). Une matrice
de distance a été générée par comparaison des séquences deux à deux (Pair-wise distance) à
l’aide du module NDIST implémenté dans le programme AmpliconNoise (Quince et al.
2011). Les erreurs de séquençage ont été corrigées soit par les méthodes d’agglomération SLP
(Huse et al. 2010) ou CD-HIT-OTU (Wu et al. 2011;
http://weizhong-lab.ucsd.edu/metagenomic-analysis/server/cd-hit-otu/), soit par la méthode probabiliste
itérative AmpliconNoise (Quince et al. 2011). Les UTOs ont été définies comme des groupes
de pyroséquences d’ADNr 18S ou d’ITS partageant plus de 99% d’identité.
4. Analyses statistiques des données génétiques intra-spécifiques
Dans le cadre de l’étude de diversité intra-spécifique d’Undella claparedei (partie
IV.D), un fichier de données a été construit avec les séquences d’ADNr 18S et un autre avec
les séquences de la région de l’ITS générées par PCR directe sur cellules individuelles. Les
jeux de séquences ont été alignés avec MAFFT.L’analyse de variance moléculaire (AMOVA)
avec le logiciel Arlequin (Excoffier et al. 2005; Excoffier et al. 1992) s’effectue pour évaluer
la distribution de la diversité dans ou entre les populations définies soit par mois
d’échantillonnage (si la population comprend plus de 10 individus) soit par condition de
stratification de la colonne d’eau (stratifiée vs mélangée). Nous avons calculé l’indice de
fixation Fst, qui mesure le degré de différenciation génétique des sous-populations par le
calcul des variances standardisées des fréquences d’allèles des populations. La signification
statistique se calcule pour les valeurs de Fst entre paires de populations pour tester
l’hypothèse nulle d’un manque de différenciation génétique entre les populations et, par
conséquent, la partition de la diversité génétique.
Les séquences concaténées de l’ADNr 18S et de la région des ITS obtenues par PCR
directe sur les cellules d’U. claparedei ont été alignées avec MAFFT. La recombinaison entre
les séquences a pour conséquence la génération de différents patrons de polymorphisme dans
la population, que l’ont peut comparer au patron de polymorphisme attendu sous l’hypothèse
nulle de reproduction clonale. Ces indices de recombinaison sont détectables par différents
tests statistiques : MAXCHI (Maynard Smith 1992), GENECONV (Sawyer 1989), qui
détectent l’hétérogénéité du patron de polymorphisme aux alentours du point de
recombinaison, et les tests de Mantel (appelés LDr2 et LD|D’|) qui évaluent la significativité
de la relation entre le déséquilibre de liaison et la distance entre les sites polymorphes.
IV Résultats
A. Phylogénie moléculaire des ciliés tintinnidés marins
Dans le document
Phylogénie, diversité et dynamique temporelle chez les ciliés tintinnidés marins
(Page 53-58)