• Aucun résultat trouvé

Deux méthodes ont été utilisées pour déterminer le taux d’évolution moléculaire 𝜇 ainsi que la date du plus récent ancêtre commun (Time For The Most Recent Commun

Ancestor, TMRCA) des isolats de virus PPA circulants. Le taux d’évolution moléculaire 𝜇

mesure le taux auquel des organismes varient (ou divergent) au fil du temps. Il est exprimé en nombre de substitutions étant survenues dans une séquence par site nucléotidique et par unité de temps (en année). A partir de ce taux d’évolution, l’âge du plus récent ancêtre commun sera inféré. Les deux méthodes utilisées, comme pour la reconstruction phylogénétique, ont été le maximum de vraisemblance et l’inférence bayésienne. Quelles que soient les méthodes utilisées, le résultat du calcul de 𝜇 et du TMRCA prend en compte le facteur temps. Pour chacune des séquences de gène intégrées dans l’analyse, la date d’isolement du virus devait donc être connue.

A chaque site d’une séquence d’ADN, le taux de substitution nucléotidique peut ne pas être égal. En effet, une pression de sélection positive telle que celle exercée par le système immunitaire de l’hôte induit logiquement un taux de substitution supérieur pour les codons sur lesquels elle s’applique. Le calcul du taux d’évolution associé à ces codons est donc soumis à un biais de par cette force évolutive, et ne correspond donc pas à l’évolution naturelle des séquences d’ADN de l’organisme étudié. Ce biais aura une incidence sur le calcul du TMRCA, un taux de substitution plus élevé devant entrainer un recul de l’âge du TMRCA.

Pour circonvenir à ce biais d’analyse, les codons soumis à pression de sélection positive détectés en 2-1-2-4- pour chacun des gènes étudiés ont été retirés de leur alignement respectif.

3-1- Datation moléculaire par maximum de vraisemblance

La datation moléculaire par maximum de vraisemblance a été réalisée à l’aide de l’algorithme Baseml qui suit des modèles de substitutions markovien, intégré dans le logiciel PAML version 4 (Yang 2007).

Cet algorithme permet l’utilisation de différents modèles de substitutions nucléotidiques. En cohérence les analyses de reconstruction phylogénétique que nous avons réalisées en 2-2-2-, les modèles que nous avons utilisés pour la datation moléculaire ont été ceux qui ont été trouvés comme les plus appropriés à nos jeux de données de séquences. Ainsi, le modèle HKY + Γ5 (Hasegawa et al. 1985) a été utilisé pour déterminer 𝜇 et le TMRCA des trois gènes étudiés B646L, E183L et CP204L.

Comme pour la détermination du taux de sélection positive, le logiciel PAML version 4 requiert le chargement d’un arbre phylogénétique et de l’alignement ayant servi de base à sa construction. Les arbres ayant été construits selon les modèles cités ci-dessus ont donc été implémentés dans le logiciel.

Pour chaque gène, l’hypothèse de l’horloge moléculaire stricte, ou hypothèse nulle, (Zuckerkandl & Pauling 1965), à savoir un taux d’évolution moléculaire identique pour chaque site nucléotidique tout le long des séquences étudiées a été testée contre une analyse sans qu’aucune horloge moléculaire ne soit appliquée. Deux arbres phylogénétiques ont donc été construits : l’un en utilisant l’option clock=1 (hypothèse nulle) qui a ensuite été comparé avec un arbre construit avec l’option clock=0 (non contraint par une horloge moléculaire, et donc pour lequel 𝜇 ne sera pas déterminé). Pour chaque arbre, une valeur de vraisemblance (LR) a été calculée. La valeur de cette probabilité est proportionnelle à celle que l’on pourrait observer pour un jeu de séquences et un modèle probabiliste donné. Cette valeur peut être considérée comme l’expression de l’adéquation entre le modèle suivi et le jeu de données. Ce sont ces valeurs qui sont utilisées pour comparer les arbres phylogénétiques entre eux, au moyen d’un ratio test de vraisemblance (LRT), qui permet de

choisir entre les deux hypothèses testées, à savoir l’hypothèse nulle 𝐻0 contre une

hypothèse alternative 𝐻1. Si l’hypothèse nulle est vraie, la valeur obtenue par la

comparaison des deux hypothèses doit suivre une distribution 𝜒² avec un degré de liberté égal au nombre de paramètres indépendants entre les deux modèles, déterminé par le

nombre 𝑁 de séquences dans l’alignement. L’hypothèse 𝐻0 demande d’implémenter un

arbre phylogénétique non enraciné, c'est-à-dire pour lequel 2𝑁 − 3 branches internes sont

estimées alors que l’hypothèse alternative 𝐻1 requiert un arbre raciné, et donc pour lequel

𝑁 − 1 branches internes sont estimées. La détermination du LRT est faite selon la formule suivante :

𝐿𝑅𝑇 = 2(𝐿𝑅 𝐻1− (𝐿𝑅 𝐻0))

Le nombre de degrés de liberté étant égal à : 2𝑁 − 3 − (𝑁 − 1) = 𝑁 − 2.

Le LRT sera alors comparé avec la valeur de 𝜒² calculée pour le même nombre de

degrés de liberté, ou 𝜒²critique (𝜒𝑐2). Si le LRT dépasse la valeur du 𝜒𝑐2, alors la perte de

vraisemblance de l’arbre phylogénétique construit sous l’hypothèse 𝐻0 est significative, et

l’hypothèse nulle sera rejetée au seuil de 95%, soit avec un risque de 5%.

Outre les choix des options clock=0 et clock=1, l’option getSe=1 a été choisie afin que les calculs d’incertitudes (standard errors) soient effectués lors de l’analyse.

L’horloge moléculaire stricte, c'est-à-dire un taux d’évolution constant au travers de toutes les branches d’un arbre phylogénétique, est biologiquement rarement vérifiée. En effet, les forces évolutives, comme par exemple la pression du système immunitaire de l’hôte, ne s’appliquent pas de la même façon sur l’ensemble d’une séquence nucléotidique. L’option clock=2 a donc été utilisée. Cette option permet en effet de faire varier 𝜇, selon les branches, à l’intérieur de l’arbre. Pour ce faire, les branches supposées diverger à des taux d’évolution différents (possédant donc une horloge « locale ») doivent être signalées et numérotées dans la syntaxe de l’arbre implémenté dans le logiciel PAML version 4 et destiné à servir de guide pour l’analyse. La syntaxe d’un arbre phylogénétique s’écrit comme suit : une branche est symbolisée par une paire de parenthèses ; à l’intérieur de ces parenthèses, les noms des isolats dont les séquences sont étudiées et qui appartiennent à cette branche sont cités, et la longueur de la branches dont ils sont la feuille est indiquée. La longueur des branches partant et menant aux nœuds internes de l’arbre est également indiquée. A titre d’exemple, la syntaxe d’un arbre à 𝑁 = 4 feuilles est la suivante :

(𝑁1: 𝑥1, �(𝑁2: 𝑥2, 𝑁3: 𝑥3): 𝑥2−3, 𝑁4: 𝑥4� ;

avec 𝑥𝑛 la longueur de branche associée à une feuille ou à un groupe de feuilles. La

signalisation de la branche contenant, par exemple, les feuilles 𝑁2 𝑒𝑡 𝑁3 sera donc effectuée

en plaçant le symbole # après la parenthèse fermant la branche qui les contient :

(𝑁1: 𝑥1, �(𝑁2: 𝑥2, 𝑁3: 𝑥3)#1: 𝑥2−3, 𝑁4: 𝑥4�) ;

Les branches autorisées à évoluer avec un taux d’évolution différent ont été déterminées en prenant pour base les branches de l’arbre issu du modèle le plus en adéquation avec le jeu de données correspondant. Des analyses successives ont alors été réalisées, en faisant varier le nombre de branches pouvant avoir un taux d’évolution propre. Dans ces cas, l’analyse par maximum de vraisemblance implémentée dans PAML version 4 ne permet pas d’obtenir un taux d’évolution moléculaire global de l’arbre, mais le taux d’évolution de chaque branche marquée dans l’arbre.

Les fichiers de contrôle ayant servi de base à ces analyses et associés à chaque gène se trouvent en annexe 3.

3-2- Datation moléculaire par inférence bayésienne

La détermination du taux d’évolution ainsi que du TMRCA des gènes B646L, E183L et

CP204L du virus PPA par inférence bayésienne a été réalisée à l’aide du logiciel BEAST version

1.6.2 (Bayesian Evolutionary Analysis by Sampling Trees) (Drummond & Rambaut 2007). Les chaines de Markov bayésiennes avec technique de Monte Carlo ont été réalisées selon un processus semblable à celui mis en œuvre avec le logiciel Mr Bayes (Huelsenbeck & Ronquist 2001 ; Ronquist & Huelsenbeck 2003), décrit en 2-2-2-2-. La méthode d’inférence

bayésienne utilisée par le logiciel BEAST offre plusieurs avantages en comparaison avec les

analyses en maximum de vraisemblance. Elle permet d’intégrer des modèles évolutifs très complexes et son processus est plus rapide. De plus, à la méthode développée dans le logiciel Mr Bayes, et qui met en exergue l’inférence phylogénétique, la méthode

implémentée dans le logiciel BEAST additionne des méthodes de coalescence développées

pour analyser la génétique des populations : les méthodes LAMARC (Kuhner 2006) et BATWING

(Ian J. Wilson 2003).

La phylogénie moléculaire et la coalescence n’ont pas tout à fait le même but. Si la première recherche l’arbre « vrai » décrivant les relations entre des loci géniques homologues, la seconde recherche moins la vérité de l’arbre que la compréhension de la généalogie retraçant l’histoire des séquences étudiées. Pour ce faire, elle vise à décrypter les forces évolutives sous-jacentes à la généalogie de la population analysée. Ces forces comprennent, par exemple, les recombinaisons, le taux de croissance des populations, leur processus de sélection ainsi que leur divergence. En conséquence, la théorie de la coalescence (Kingman 1982) est un ensemble structuré de théories mathématiques visant à déterminer la date à laquelle des séquences ont divergé, c'est-à-dire le temps auquel existait leur ancêtre commun.

L’algorithme qui dirige les analyses effectuée par le logiciel BEAST est une chaine de

Markov avec technique de Monte Carlo couplée à l’algorithme de Metropolis – Hasting (Metropolis Coupling Markov Chain Monte Carlo, MCMCMC) (Hastings 1970 ; Metropolis 1953). Cette méthode permet de pallier une des faiblesses d’une MCMC : l’existence de maxima locaux, qui peuvent fausser les approximations d’une chaine markovienne. En effet, ces maxima locaux peuvent stopper une MCMC alors que l’exploration des paramètres n’a pas été totale. La première façon de déjouer ce piège est de faire tourner la MCMC sur un nombre suffisant de générations pour s’assurer de la fiabilité des probabilités postérieures. Cette méthode permet de faire tourner simultanément plusieurs MCMC. Tandis que la première chaine, dite chaine « froide » fournit une estimation des probabilités postérieures en convergeant vers une distribution stationnaire, les autres chaines, dites chaines « chaudes » explorent d’autres versions de la même distribution. A intervalle régulier, l’état des chaines est permuté selon le processus de Metropolis, le nouvel état est alors comparé au précédent, puis accepté ou rejeté selon son adéquation au jeu de données étudié. Les chaines chaudes et froides tournent en parallèle, mais seul l’échantillonnage produit par la chaine froide servira de base à l’inférence.

Ce couplage des MCMC permet d’explorer des processus évolutifs beaucoup plus complexes, comme la modélisation explicite du taux d’évolution moléculaire associé à

chaque branche d’un arbre phylogénétique. Cela permet au logiciel BEAST de produire des arbres racinés possédant une échelle de temps et donc d’étudier des séquences d’un point de vue généalogique. Outre l’hypothèse la plus simple de taux d’évolution fixe tout le long

de la séquence (horloge moléculaire stricte), l’algorithme implémenté dans BEAST permet

l’utilisation d’horloges moléculaires « relâchées », c'est-à-dire l’autorisation pour le taux d’évolution de varier le long de l’arbre (Kishino et al. 2001 ; Thorne & Kishino 2002 ; Yoder & Yang 2000). Contrairement au logiciel PAML version 4 et son option « horloge locale », qui demandait à l’utilisateur de choisir lui-même les branches pouvant avoir un taux d’évolution différent, ici, l’algorithme teste les hypothèses pour toutes les branches, en calculant les probabilités postérieures de l’hypothèse testée qu’il acceptera ou refusera, selon le résultat.

La suite BEAST est un ensemble de logiciels dont l’utilisation progressive permet

d’analyser la généalogie d’un jeu de données de séquences d’ADN. Le logiciel BEAUTI permet

de spécifier un grand nombre de modèles évolutifs que l’on souhaite appliquer à un jeu de

séquences donné. Après que l’analyse ait été effectuée par le logiciel BEAST, les résultats sont

analysés à l’aide du logiciel TRACER. L’arbre phylogénétique consensus gradué dans le temps

est enfin généré au moyen du logiciel TREEANNOTATOR, qui produit un arbre regroupant toutes

les informations contenues dans l’ensemble des arbres générés au cours de l’analyse.

Les modèles évolutifs que nous avons choisis d’utiliser pour explorer nos séquences ont été basés sur ceux qui ont été trouvés les plus en adéquation avec nos jeux de données. Il s’agissait des modèles HKY + Γ5 (Hasegawa et al. 1985) pour les trois gènes B646L, E183L et CP204L.

L’inférence bayésienne autorise à postuler a priori des hypothèses (« priors ») autres que le modèle évolutif, et donc de fixer avant l’analyse certains paramètres, hypothèses dont la plausibilité sera vérifiée au moyen de probabilités postérieures.

Ces hypothèses a priori ont pour objectif de calibrer les informations afin de pouvoir discerner le taux d’évolution 𝜇 du temps dont il dépend. Le processus évolutif qui conduit la diversification des séquences d’ADN du virus PPA a conduit à rejeter l’hypothèse nulle de l’horloge moléculaire stricte (cf. Résultats), aussi seules des horloges moléculaires relâchées ont été utilisées au cours de ces analyses, particulièrement les horloges moléculaires relâchées non corrélées (« uncorrelated relaxed clock »). Dans ces modèles, le taux d’évolution de chaque branche est déterminé à partir d’une distribution sous-jacente exponentielle ou lognormale (Drummond et al. 2006).

Certains paramètres ont été fixés pour l’analyse.

Dans le modèle idéal de coalescence, la taille effective de la population étudiée (𝑁𝑒)

est constante et les générations ne sont pas chevauchantes : c’est le modèle Wright – Fisher (Fisher 1930 ; Wright 1931). Les membres de cette population partagent donc la même capacité à diverger que les membres de la population recensée lors de l’étude. Dans la réalité, la taille effective d’une population varie en fonction des générations. Néanmoins,

une population virale est de fait non sexuée, aussi, la taille d’une génération n’est pas dépendante par exemple, du sex-ratio de la précédente. De plus, dans un système épidémique, la population reste globalement stable, la croissance et l’extinction de la population se faisant au gré de la virulence qui s’équilibre elle-même avec la transmission du pathogène. Nous avons donc considéré que la taille de la population de deux générations était constante.

L’intervalle dans lequel est compris le taux d’évolution moléculaire 𝜇, a été fixé selon le taux observé dans les trois alignements étudiés et selon la formule décrite en 2-1-2-3. Afin de ne pas trop contraindre les calculs, la valeur minimale observée a été arbitrairement divisée par un facteur 10 et la valeur maximale multipliée par un facteur 2. La valeur initiale de 𝜇 a ensuite été placée sur le minimum observé. Au final, la valeur initiale de 𝜇 pour le

gène B646L a été fixée à 5,3 x 10-3 pour un intervalle de [5,3 x 10-4 – 2,8 x 10-1], à 7,5 X 10-3 et

un intervalle de [7,5 x 10-4 – 3,3 x 10-1] pour le gène E183L et 5,36 x 10-3 pour un intervalle de

[5,36 x 10-4 – 1,99 x 10-1] pour le gène CP204L.

Une autre valeur initiale de 𝜇 a été testée : lors de l’analyse testant l’hypothèse de l’horloge moléculaire stricte en maximum de vraisemblance (logiciel PAML), un taux de substitution global pour l’ensemble de l’arbre a été calculé. Ce résultat a été utilisé comme valeur initiale de 𝜇 avec un intervalle [0 –+∞].

Les MCMCMC ont été tournées pendant 108 générations avec un échantillonnage des

arbres tous les 104 arbres générés. Et, comme dans l’analyse MCMC effectuée avec le logiciel

Mr Bayes, un burn-in de 25% a été réalisé, soit les 2500 premières itérations des chaines de Markov générées ont été écartées des suites de l’analyse. A titre de comparaison, toutes les analyses ont été effectuées en duplicat. L’arbre consensus généré par le logiciel a lui aussi été construit après un burn-in de 25% des arbres générés.

Les arbres finalisés ont alors été visualisés et annotés à l’aide du logiciel FigTree, développé par A. Rambaud (http://tree.bio.ed.ac.uk/software/figtree/).

REÉ SULTATS

1- Abondement de la base de données dédiée au virus PPA avec les séquences