Comprendre les relations qui unissent les isolats viraux : analyse approfondie de la

2-1- Analyse des données 2-1-1- Alignements

Les alignements multiples des séquences nucléotidiques et protéiques ont été réalisés au moyen du logiciel Mega version 5 (Tamura et al. 2011) par la méthode d’alignement progressif ClustalW (Thompson et al. 1994). Cette méthode dite heuristique parce qu’elle propose un alignement réalisable mais pas nécessairement optimal, vise à regrouper progressivement les séquences en procédant en trois étapes : l’algorithme calcule tout d’abord l’ensemble des appariements possibles de séquences afin de générer une matrice de distance représentant la divergence nucléotidique ou protéique entre chaque paire de séquences. La matrice de distance sert à construire un arbre guide dont dépendra l’ordre d’incrémentation des nouvelles séquences dans l’alignement, à savoir de la plus similaire à la plus distante. Les deux séquences les plus semblables seront regroupées puis considérées comme une séquence unique qui servira alors de base pour regrouper une à une les autres séquences, ou groupes de séquences identiques.

La matrice servant à la construction de l’arbre guide est une matrice de distances « observées » entre les séquences. Elle a été calculée au moyen d’une méthode d’approximation autorisant l’alignement d’un grand nombre de séquences, car peu gourmande en ressources informatiques et donc en temps (Bashford et al. 1987). Cette méthode calcule le nombre de résidus nucléotidiques (ou protéiques) différents entre deux séquences et le divise par le nombre total de sites analysés, conférant ainsi un « score » de distance entre les séquences deux à deux.

A partir de cette matrice de distances, l’algorithme va construire l’arbre phylogénétique guide par la méthode du Neighbor Joining (ou du plus proche voisin) (Saitou & Nei 1987). L’arbre généré a donc des branches dont la longueur est proportionnelle à la

distance observée. La racine de l’arbre est placée de manière à ce que la moyenne des longueurs de branches de chaque côté d’elle soit égale. Chaque séquence de l’arbre peut donc se voir assigner un poids, dépendant de sa distance à la racine, et qui sera ensuite utilisé pour incrémenter les séquences dans l’alignement.

Si cette méthode d’alignement progressif produit des alignements proches de l’alignement optimal, elle ne respecte cependant pas l’ordre des nucléotides dans les codons, ce qui peut amener à rompre le cadre de lecture, par exemple en créant des insertions au sein de codons. Il a donc fallu vérifier manuellement chacun des alignements afin de contrôler le bon respect du cadre de lecture et préserver la réalité biologique de l’alignement. Cette vérification a été réalisée à l’aide du logiciel Mega version 5. Chaque alignement a été traduit en acides aminés et les séquences ont été replacées manuellement dans le cadre de lecture des gènes. De plus, les trous ont été retirés des alignements afin de ne pas induire de divergence artificielle entre les séquences. Au cours de cette vérification, il a été constaté que les séquences disponibles dans les banques de données publiques contiennent certaines erreurs de séquençage non répertoriées, telles que des codons stop. La banque de données ainsi que les alignements ont donc été expurgés de toutes les séquences erronées. Les analyses suivantes ont donc été réalisées à partir de 356 isolats pour le gène B646L, 251 pour le gène E183L et 123 pour le gène CP204L.

2-1-2- Analyse des alignements

2-1-2-1- Saturation des substitutions

Après vérification des alignements, la pertinence de l’information génétique contenue dans le jeu de données a été contrôlée à l’aide du logiciel DAMBE version 5.2.0.14 (Xia & Xie 2001). La valeur informative du jeu de données dépend du phénomène de saturation des substitutions. Ce phénomène survient lorsqu’il devient impossible de discerner si les similitudes de nucléotides observées à un site donné entre deux séquences sont de réelles homologies ou seulement dues au hasard. Dans ce cas, les différences entre les séquences d’ADN ne permettent plus d’analyser les processus évolutifs associés ni d’estimer le temps de divergence entre deux séquences. La méthode utilisée par le logiciel DAMBE est basée sur une analyse de la nature des substitutions observées dans les alignements. Dans la réalité biologique, les transitions représentent la majorité des substitutions nucléotidiques. Ainsi, lorsque la distance génétique entre deux séquences augmente, le nombre de transitions et de transversions augmente proportionnellement, le nombre de transitions étant toujours supérieur. Cependant, dans le cas de séquences de plus en plus éloignées, la saturation des substitutions peut être atteinte et les transversions devenir plus nombreuses que les transitions. Ce phénomène est de fait biologiquement étayé puisque les transversions sont au nombre de huit alors que les transitions sont seulement au nombre de quatre. Dans ce

cas, deux séquences identiques à un site donné ou différant par une simple transition peuvent cependant être séparées de plusieurs évènement de substitutions, le signal phylogénétique des séquences est alors perdu.

2-1-2-2- Détection des recombinaisons

La saturation des substitutions n’est pas le seul biais qui puisse altérer une analyse phylogénétique. Il a été montré que les virus recombinent leurs génomes (Santti et al. 1999). Or, la recombinaison est une force évolutive majeure dans l’émergence de variants alléliques. Lors de recombinaisons, des gènes ou des fragments de gènes d’organismes individuels sont échangés. Les génomes qui en résultent sont alors les produits de plusieurs histoires évolutives, ce qui va impacter lourdement les analyses phylogénétiques. En effet, un arbre phylogénétique établissant les relations entre taxons sous le modèle strict de bifurcation ne peut représenter fidèlement l’histoire évolutive d’un génome dont les parties appartiennent à différentes histoires évolutives. L’impact sur la phylogénie sera alors de plusieurs ordres. Dans l’arbre, le ratio entre les longueurs de branches internes et externes va tendre à se réduire et le TMRCA va lui aussi tendre à diminuer (Schierup & Hein 2000a). Enfin, le ratio substitutions non synonymes/substitutions synonymes (𝑑𝑁/𝑑𝑆) sera surestimé, conduisant à détecter de faux sites nucléotidiques soumis à une pression de sélection positive (Shriner et al. 2003).

Il convient donc de chercher à détecter tout signal de recombinaison entre des séquences au sein d’un alignement afin d’éliminer les recombinants qui fausseraient l’analyse phylogénétique. Cette détection a été réalisée avec le logiciel RDP3 version 3 (Heath et al. 2006). Les tests de détection ont été effectués avec les méthodes RDP (Martin & Rybicki 2000), GENECONV (Padidam et al. 1999), MAXCHI (Smith 1992) et SISCAN (Gibbs et

al. 2000) appliquées à des séquences d’ADN linéaires. Ces méthodes, appelées méthodes de

distribution des substitutions, reposent sur une mesure de l’apparentement entre des séquences. Elles identifient les écarts de patrons entre des sites nucléotidiques partagés par des groupes de séquences au sein d’un alignement, en utilisant une base statistique qui permet d’exprimer les différences d’apparentement entre ces séquences au moyen de partitions différentes de l’alignement. Cela revient à compter les sites nucléotidiques communs et/ou différents entre des paires, des triplets ou des quadruplets de séquences. Les sites de début et de fin des recombinaisons sont ainsi détectés et une p-valeur de la distance entre les séquences est calculée.

Les séquences de 17 isolats viraux présentant des recombinaisons ont donc été retirées des alignements du gène E183L. Les analyses suivantes ont donc été effectuées sur un total de : 351 séquences du gène B646L, 123 séquences du gène CP204L et 234 séquences du gène E183L.

2-1-2-3- Composition des alignements

Après avoir expurgé les alignements des séquences erronées et des recombinants, la composition nucléotidique des alignements a été déterminée à l’aide du logiciel Dnasp version 5 (Librado & Rozas 2009). Ce logiciel permet d’analyser le polymorphisme des séquences d’un alignement. Le nombre de sites ségrégatifs (sites pour lesquels au moins une substitution est observée au sein de l’alignement) a été calculé, ainsi que le nombre de transversions et de transitions. Parmi ces mutations, le nombre de substitutions synonymes et non synonymes a également été déterminé. La diversité entre deux séquences (𝜋) a ainsi pu être établie. Pi, correspond à la moyenne des substitutions nucléotidiques entre deux séquences pour chaque site étudié (Lynch & Crease 1990). Le nombre moyen de nucléotides différents entre deux séquences (𝑘) a également été calculé (Tajima 1993).

Les taux de substitutions observés (𝜇) par site et par an maximum et minimum ont été manuellement déterminés comme suit : soit un site nucléotidique 𝑛 donné dans un alignement contenant 𝑆 séquences de 𝑁 sites. Sur ce site on observe que 𝑠 séquences montrent la même substitution par rapport à la séquence consensus. Le nombre de substitutions peut alors être égal à 1 si l’on considère que les 𝑠 séquences ont un ancêtre commun qui possédait cette mutation, ou égal à 𝑠 si l’on considère que chaque séquence a muté au niveau de ce site 𝑛 ; 1 est donc le nombre minimum de substitution et 𝑠 le nombre maximum. En répétant ce calcul pour les 𝑁 sites, on obtient :

𝜇𝑚𝑖𝑛 = 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑠𝑢𝑏𝑠𝑡𝑖𝑡𝑢𝑡𝑖𝑜𝑛𝑠 𝑑𝑖𝑓𝑓é𝑟𝑒𝑛𝑡𝑒𝑠 𝑝𝑎𝑟 𝑠𝑖𝑡𝑒 /𝑁/ 𝑇𝑒𝑚𝑝𝑠 (𝑎𝑛𝑛é𝑒𝑠) et

µ𝑚𝑎𝑥 =

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑠é𝑞𝑢𝑒𝑛𝑐𝑒𝑠 𝑑𝑖𝑓𝑓é𝑟𝑒𝑛𝑡𝑒𝑠 𝑑𝑢 𝑐𝑜𝑛𝑠𝑒𝑛𝑠𝑢𝑠 𝑝𝑎𝑟 𝑠𝑖𝑡𝑒/𝑁/ 𝑇𝑒𝑚𝑝𝑠 (𝑎𝑛𝑛é𝑒𝑠)

2-1-2-4- Analyse de la pression de sélection (𝒅_𝑵/𝒅_𝑺)

Pour comprendre comment évoluent les séquences codantes d’un jeu de données, il est nécessaire d’évaluer la forme de sélection à laquelle est soumis le gène qui les porte. Pour ce faire, l’analyse des taux de substitutions synonymes et non synonymes, ainsi que de

leur ratio s’avère d’une grande utilité. On appelle 𝑑𝑁 la distance non synonyme et 𝑑𝑆 la

distance synonyme entre deux séquences. 𝑑𝑁 est définie comme le nombre de substitutions

non synonymes 𝐷𝑛 s’étant produites à un site non synonyme 𝑁, et 𝑑𝑆 comme le nombre de

substitutions synonymes 𝐷𝑠 s’étant produites à un site synonyme 𝑆. Dans le cas où un taux

de substitution neutre, c'est-à-dire égal en tout point, s’appliquerait pour chaque site des séquences étudiées, et que le nombre de substitutions serait faible, le ratio 𝑁/𝑆 donnerait

une bonne approximation du ratio 𝑑𝑁/𝑑𝑆, également noté 𝜔. Cependant, cette méthode ne

permet pas d’analyser des processus évolutifs plus complexes, tel que les substitutions multiples au sein d’un même codon, car le chemin évolutif pour passer d’un codon à un autre est lui-même multiple. C’est pourquoi il convient d’appliquer les corrections apportées par les modèles évolutifs utilisés pour la reconstruction d’arbres phylogénétiques (voir ci-dessous). Lorsque le gène qui porte les séquences étudiées, ou plus précisément la protéine encodée par le gène, est soumis à une pression de sélection positive, ou diversifiante, les substitutions non synonymes vont tendre à s’accumuler car elles entraînent un bénéfice pour l’organisme ; on aura donc 𝜔 > 1. Si le gène est soumis à une pression de sélection négative, ou purifiante, les variants portant des mutations non bénéfiques, voire délétères seront progressivement éliminés de la population et on aura 𝜔 < 1. Enfin, si aucune sélection ne s’applique, ou sélection neutre, on aura 𝜔 ≈ 1. Dans la réalité biologique, 𝜔 ne dépasse pas 1 (sauf localement), car cela signifierait que la pression de sélection positive s’applique de manière constante et infinie sur la séquence protéique.

L’analyse du ratio 𝑑𝑁/𝑑𝑆 a été effectuée pour les gènes B646L, E183L et CP204L à

l’aide de l’algorithme codeml (Yang 1998) intégré au logiciel PAML (Phylogenetic Analysis by Maximum Likelihood) version 4 (Yang 2007). Dans le même temps, chaque codon soumis à une pression de sélection positive a été détecté et répertorié.

Le logiciel PAML 4 nécessite l’implémentation de deux fichiers d’entrée : un arbre phylogénétique, et l’alignement dont il est issu. Si l’alignement peut être facilement contrôlé, l’arbre phylogénétique qui servira de support à l’analyse doit être rigoureusement choisi, pour refléter au mieux l’histoire évolutive du gène. Ainsi, l’arbre directionnel choisi pour chaque gène étudié a été retenu selon la méthode décrite en 2-2.

Le fichier de contrôle de l’analyse, identique pour les trois gènes étudiés se trouve en annexe 2. Les paramètres importants fixés pour ces analyses ont été les suivants :

Runmode = 0, ce qui signifie une évaluation de la topologie de l’arbre phylogénétique chargé dans le logiciel.

Seqtype = 1, qui stipule que les alignements servant à l’analyse ont été réalisés avec des séquences codantes, et dans le cadre de lecture des gènes.

CodonFreq = 2 stipule que la fréquence des codons à l’équilibre (soit la proportion dans les séquences des quatre nucléotides pour un temps d’évolution qui serait infini) est calculée à partir des moyennes des fréquences observées des quatre nucléotides sur les trois positions des codons.

Model = 0. Ce paramètre implique que le même taux 𝜔 est appliqué sur l’ensemble des branches de l’arbre.

NSsites = 8. Ce modèle (Yang 2000) prend en compte 11 classes pour les sites nucléotidiques : 10 classes pour la distribution 𝛽 ainsi qu’une classe supplémentaire pour les

codons ayant une valeur de 𝜔 ≥ 1, c'est-à-dire soumis à une pression de sélection positive. Ce modèle a été utilisé en parallèle avec la variable ncatG (nombre de catégories de la distribution de 𝜔) fixée à 8.

GetSE a été fixé à 1 afin de permettre une estimation des erreurs standards associées aux paramètres.

Enfin, RateAncestor = 1 qui va permettre à l’algorithme de procéder à une reconstruction de la séquence ancestrale des alignements étudiés par une approche bayésienne empirique, qui utilise les longueurs de branches de l’arbre ainsi que le taux de substitution relatif de chaque nucléotide (Koshi & Goldstein 1996).

L’utilisation de toutes les séquences d‘isolats disponibles n’a pas permis de mener à bien ces analyses. En effet, les erreurs standards convergeaient vers zéro avant la fin de l’analyse, indiquant une divergence de l’algorithme ou des longueurs de branches égales à zéro. Des jeux de données réduits, représentant les séquences uniques dans l’alignement ont alors été utilisés. Soit 67 séquences pour le gène B646L, 70 séquences pour le gène E183L et 65 séquences pour le gène CP204L.

2-2- Reconstructions phylogénétiques 2-2-1- Choix du modèle évolutif

Les méthodes de maximum de vraisemblance (Felsenstein 1981) ont pour but de déterminer le modèle évolutif qui correspond le mieux à l’évolution qui s’exprime au sein d’un jeu de données de séquences. Cette détermination passe par l’application de modèles évolutifs probabilistes. Les analyses en maximum de vraisemblance suivantes ont été réalisées à l’aide du logiciel TREEFINDER version mars 2011 (Jobb et al. 2004).

En premier lieu, le modèle évolutif le plus approprié aux jeux de données dont nous disposions a été déterminé en utilisant l’option « propose model » du logiciel TREEFINDER. Afin de consolider les propositions faites pour chaque alignement, trois critères d’information ont été employés : Akaike Information Criterion (AIC) (Akaike 1974), qui est une estimation du taux d’information perdue lors de l’utilisation d’un modèle pour représenter un processus stochastique, ce qu’est l’évolution. Les modèles donnant un AIC faible sont les plus appropriés au jeu de données analysé. L’AIC d’un modèle M est égal à :

𝐴𝐼𝐶 = −2 ln 𝑣𝑟𝑎𝑖𝑠𝑒𝑚𝑏𝑙𝑎𝑛𝑐𝑒 + 2𝑘 avec 𝑘 le nombre de paramètres estimés.

Le second critère est un dérivé du précédant, appelé AICc (Sugiura 1978) (pour AIC corrigé). Le calcul de l’AICc se fait selon la formule suivante :

𝐴𝐼𝐶𝑐 = −2 ln 𝑣𝑟𝑎𝑖𝑠𝑒𝑚𝑏𝑙𝑎𝑛𝑐𝑒 +_{𝑚 − 𝑘 − 1}^2𝑘𝑚

avec 𝑘 le nombre de paramètres estimés et 𝑚 le nombre de sites étudiés. Il est à noter que l’AIC et l’AICc tendent à converger lorsque 𝑚 grandit.

Enfin, le Bayesian Information Criterion (BIC) (Schwarz 1978) a été utilisé. Ce test pénalise plus les paramètres libres des modèles que ne le font les AIC. Il se calcule comme suit :

𝐵𝐼𝐶 = −2 ln 𝑣𝑟𝑎𝑖𝑠𝑒𝑚𝑏𝑙𝑎𝑛𝑐𝑒 + 𝑘 ln(𝑚)

Ces trois tests ont été réalisés pour une distribution gamma (Г) des nucléotides partitionnée en 5.

2-2-2- Construction des arbres phylogénétiques 2-2-2-1- Maximum de vraisemblance

Pour chacun des trois gènes analysés, à savoir B646L, CP204L et E183L, de 1 à 3 arbres phylogénétiques ont été construits en utilisant le logiciel TREEFINDER, selon les modèles déterminés en 2-2.1-. Pour des raisons de comparaison, le model réversible généralisé (GTR pour General Time Reversible) (Lanave et al. 1984 ; Rodriguez et al. 1990) a été systématiquement utilisé. Ce modèle est le plus complexe de tous les modèles de reconstructions phylogénétique avec 9 paramètres (les 3 paramètres de fréquences à l’équilibre et les 6 paramètres d’échangeabilité), les autres modèles étant des cas particuliers de ce modèle. Pour renforcer le degré de confiance de chaque arbre construit, deux analyses de ré-échantillonnage utilisant 1000 répétitions ont été effectuées : le test Local – Rearrangements / Expected-Likelihood Weight (LR-ELW) (Strimmer & Rambaut 2002) et le test de bootstrap non paramétrique (Felsenstein 1985). Lors de l’analyse ELW, toutes les topologies possibles autour de chaque branche interne d’un arbre non enraciné sont générées et la longueur des nouvelles branches ainsi créées est mesurée sans que soient modifiés les autres paramètres du modèle. La valeur de vraisemblance de toutes ces topologies réunies est alors calculée et affectée à la branche originelle, en pourcentage.

Au cours de l’analyse avec bootstrap ce ne sont pas les longueurs de branches qui sont testées individuellement, mais un ré-échantillonnage complet des alignements est effectué. La méthode consiste à créer artificiellement de nouveaux alignements, ici 1000, de la même taille que l’alignement originel, en effectuant un tirage au sort avec remise des colonnes de

l’alignement originel. Une reconstruction phylogénétique est alors faite à partir de chaque alignement chimérique généré, et la valeur associée à chaque nœud dans l’arbre correspond au nombre de fois sur 1000 réplicats où cette même topologie a été trouvée. La valeur du bootstrap est indiquée en pourcentage.

La congruence des topologies d’arbres générées a été testée grâce à l’option « Analysis | Test Hypotheses » du logiciel TREEFINDER et le test ELW de Strimmer et Rambaut (2002) a été appliqué. Ce test compare entre eux des arbres construits selon des modèles phylogénétiques différents appliqués au même jeu de données. Une valeur de vraisemblance est calculée et une p-valeur est attribuée à chaque arbre. L’arbre ayant la valeur ELW la plus haute a été retenu.

2-2-2-2- Inférence bayésienne

Contrairement aux méthodes par maximum de vraisemblance qui analysent les probabilités a posteriori, l’approche par inférence Bayésienne permet de calculer ou de réviser la probabilité a priori d’une hypothèse (Holder & Lewis 2003). La méthode prend ainsi en compte cette probabilité postérieure pour calculer la probabilité a priori de l’hypothèse suivante. L’analyse phylogénétique par inférence Bayésienne a été effectuée par des chaines de Markov avec technique de Monte Carlo (Markov Chain Monte Carlo, MCMC) du logiciel Mr Bayes version 3.1 (Huelsenbeck & Ronquist 2001 ; Ronquist & Huelsenbeck 2003). Les MCMC sont une méthode statistique d’échantillonnage utilisant des fonctions intégrées. Elles permettent de faire des tirages aléatoires d’échantillons (technique Monte Carlo) à partir des fonctions, chaque tirage étant basé directement sur le résultat du tirage précédent (chaine de Markov). Ainsi, les probabilités générées par une MCMC, si elles sont très différentes au début de l’analyse, puisqu’issues d’un tirage aléatoire, finissent par converger, puisque leur expression est basée sur le résultat du tirage précédent.

Une chaine de Markov, ou processus de Markov, considère chaque site d’une séquence d’ADN comme une variable aléatoire dont les différents états 𝑛 forment une fonction discrète, c'est-à-dire discontinue. Dans le cas de l’ADN, les différents états d’un même site sont au nombre de 4 : les 4 nucléotides A, T, C et G. Ainsi, un processus de Markov permet de définir la probabilité de remplacement d’un nucléotide par un autre après une période de temps 𝑡, tout le long des séquences d’ADN étudiées.

Les modèles utilisés ont été ceux qui se sont révélés être les plus adaptés aux jeux de données que nous avons utilisés, c’est-à-dire ceux pour lesquels la valeur du test ELW a été la plus forte lors du test des hypothèses en maximum de vraisemblance. Le modèle GTR a, là aussi, été réalisé pour comparaison. Les chaines de Markov ont été tournées le nombre de cycles nécessaires pour que la valeur du test de vraisemblance (LRT) associé aux arbres générés soit inférieure à 0,01 quand cela était possible, ou du moins stabilisée à la valeur la

plus proche de 0,01. L’arbre consensus a ensuite été défini par comparaison de tous les arbres générés au cours des MCMC après avoir retiré les premiers 25% des arbres générés par l’analyse (burn-in). En effet, lors de sa phase initiale les LRT produits par les MCMC sont élevés, car très influencés par le point de départ de l’analyse. Des LRT élevés signifient des arbres assez voire très dissemblables et reflétant donc peu la réalité du jeu de données. Inclure ces arbres dans le processus de génération de l’arbre consensus pourrait donc en altérer la topologie.

2-2-2-3- Enracinement des arbres

Les méthodes phylogénétiques produisent en général des arbres non enracinés car, si elles sont capables de déterminer les relations entre les séquences des isolats, elles n’ont

Dans le document Détection et caractérisation moléculaires rapides du virus de la peste porcine africaine et utilisation des reconstructions phylogénétiques pour reconstituer son histoire évolutive (Page 114-126)