• Aucun résultat trouvé

L’histoire de la datation moléculaire débute dans les années 1960, avec la parution de deux articles de E. Zuckerkandl et L. Pauling (Zuckerkandl & Pauling 1962, 1965). Ces deux auteurs, qui étudient l’évolution entre protéines homologues mais provenant d’espèces ayant divergé depuis longtemps, constatent une augmentation linéaire de la distance génétique en fonction du temps de spéciation. Ils concluent, peut-être un peu rapidement, à l’existence d’un taux d’évolution unique et constant au cours du temps, pour chaque classe de protéine (et des gènes qui les sous-tendent). L’hypothèse de l’horloge moléculaire était en gestation. Si elle s’avérait vraie, cette assertion avait une conséquence immédiate. Il devenait possible de dater avec précision la spéciation de chacune des espèces appartenant au règne du vivant, en calculant le taux d’évolution.

C’est Motoo Kimura, qui donne définitivement naissance à l’hypothèse de l’horloge moléculaire, en même temps qu’à la théorie de la neutralité évolutive (Kimura 1968). Il l’érigera en principe, en postulant que, tant que la structure tertiaire et la fonction des

protéines ne sont pas altérées, le taux de substitution des acides aminés reste constant, par site, et par unité de temps. Il modélisa cette théorie en partant du postulat que la fréquence d’émergence de tout nouvel allèle ne contrevenant pas au sélectionnisme darwinien, devait être uniquement due à une mutation accidentelle apparue entre deux générations. Ainsi, Kimura montra, mathématiquement, qu’un taux de substitution neutre pour des allèles, c'est-à-dire sans conséquence physiologique, était égal à leur taux de mutation. Néanmoins, au-delà de la possibilité de dater la divergence entre des séquences, l’hypothèse de l’horloge moléculaire décrivait également le processus évolutif des organismes vivants, c'est-à-dire que l’évolution moléculaire était, pour la plupart, due au remplacement stochastique et progressif d’allèles fonctionnellement équivalents, les modifications favorables étant donc rares et sans impact sur le taux global d’évolution. Or, cette conceptualisation du processus évolutif va, de fait, à l’encontre du concept de la sélection positive. En effet, elle implique que toute modification de l’horloge évolutive est due soit à une évolution adaptative à des contraintes (par exemple environnementales, plus ou moins stringentes), ou un changement de la taille de la population (dont nous avons déjà expliqué les implications en termes d’évolution). Cependant, l’hypothèse de l’horloge moléculaire stricte étant la plus simple à aborder, tant d’un point de vue conceptuel que mathématique, elle sera le point de départ de toute analyse et de tout développement en datation moléculaire, de la même façon qu’à partir du modèle de Jukes et Cantor ont été développés des modèles plus complexes de phylogénie. Ces modèles sont d’ailleurs utilisés pour la construction des arbres qui vont guider l’analyse en datation moléculaire.

Selon l’hypothèse de l’horloge moléculaire stricte, des séquences ayant divergé à partir d’un ancêtre commun doivent avoir accumulé le même nombre de substitutions au cours du temps, puisque leur taux d’évolution est identique. Cependant, lorsque comme dans le cas des virus, la séquence ancestrale demeure inconnue, il n’y a aucune possibilité de vérifier cette hypothèse. Tout comme dans le cas de l’enracinement des arbres phylogénétiques, l’incorporation dans l’analyse d’un ou de plusieurs groupes externes peut pallier cette absence puisque, dans le cas d’une horloge moléculaire stricte, le nombre de substitutions entre la séquence du (ou des) groupe(s) externe(s) et chaque taxon doit être identique. Néanmoins, cette méthode dite de « régression linéaire de la racine aux feuilles » (root-to-tip linear regression method) (Drummond et al. 2003a), même si elle a été développée pour permettre la comparaison d’un nombre assez important de taxa, n’atteste pas la possibilité de détecter un taux d’évolution variable (Bromham et al. 2000). En effet, l’écueil majeur auquel cette méthode se heurte est d’avoir à effectuer de nombreux tests sur des évènements non-indépendants, ce qui conduit souvent à surestimer le taux d’évolution. En effet, cette méthode repose sur l’hypothèse de l’indépendance des distances génétiques liant des paires de séquences, alors que dans les faits, les séquences sont liées par un ancêtre commun et une histoire évolutive partagée. La non indépendance des distances génétiques est un problème classique en analyse évolutive (Harvey & Pagel 1991), mais il peut être résolu par l’utilisation de méthodes prenant en compte de manière explicite

la structure implicite des données de séquences étudiées. Ainsi sera fait en appliquant aux données les modèles évolutifs que nous avons décrits précédemment.

Le maximum de vraisemblance permet la prise en compte d’un ensemble d’évènements non indépendants pour comparer des hypothèses, via le test LRT. Le test LRT utilise les valeurs de vraisemblance attribuées à chaque hypothèse, dont le double de la différence doit normalement suivre une loi du 𝜒². Ce test a été appliqué à la détermination de l’horloge moléculaire, afin d’évaluer si le taux de substitution était homogène ou non, tout au long des branches d’un arbre phylogénétique. Pour y parvenir, le test LRT observe si la longueur des branches respecte l’horloge moléculaire stricte, c'est-à-dire si le taux de substitution instantanée moyen est identique entre chaque branche. Le test compare donc la longueur totale d’un arbre construit sans hypothèse d’horloge moléculaire (i.e. un arbre non raciné), ayant 2𝑛 − 3 branches, à celle d’un arbre construit sous hypothèse d’horloge moléculaire (i.e. un arbre raciné) ayant 𝑛 − 1 branches. Il est à noter que la différence dans le nombre de branches entre les deux arbres, provient du fait qu’un arbre construit avec l’horloge moléculaire est ultramétrique, c'est-à-dire que toutes ses feuilles sont équidistantes à la racine, puisque la quantité d’évolution dans un intervalle de temps donné est identique tout le long des branches. Ainsi, il n’est pas utile de calculer la longueur de chacune des branches, puisque, pour n’importe quel couple de taxa, la longueur des branches menant à leur ancêtre commun est identique. L’une peut donc être inférée de l’autre. Il est cependant important de noter que le test LRT peut conduire à rejeter l’hypothèse d’horloge moléculaire stricte en cas de présence de recombinaisons dans les séquences étudiées (Schierup & Hein 2000a, b). Il conviendra donc de vérifier l’absence de recombinaison dans le jeu de données avant de construire les arbres. Pour davantage de précisions sur le test LRT et l’horloge moléculaire, se rapporter à la partie résultats de ce manuscrit, dans laquelle il est détaillé.

Dans la plupart des cas, les analyses en phylogénie moléculaire faites sur des isolats viraux sont effectuées à partir de jeux de données de séquences étant issus d’un échantillonnage sériel, c'est-à-dire provenant de virus isolés à différents temps et en différents lieux. De ce fait, la date d’isolement est en général connue. Si le taux d’évolution est continu dans le temps, ces virus forment alors une population dont l’évolution est mesurable (Drummond et al. 2003b) (MEPs, pour measurably evolving populations), car les séquences provenant des isolats disponibles ont évolué de la même manière depuis leur ancêtre commun. On observe au contraire et principalement pour les virus à ARN, un taux d’évolution ayant tendance à s’accélérer au cours du temps. Quoiqu’il en soit, les analyses en datation moléculaire tiendront compte de la date d’échantillonnage. Elles ne pourront donc plus générer un arbre ultramétrique, puisque le calcul de la longueur des branches des feuilles à la racine, sera contraint par ces dates. De fait, la connaissance de l’âge des feuilles permettra d’inférer l’âge des nœuds internes de l’arbre, en le traduisant en un taux d’évolution par site et par unité de temps (Rambaut 2000) et ainsi, de calibrer l’horloge moléculaire réelle s’appliquant aux séquences considérées.

Cependant, la régularité de l’horloge moléculaire n’est pas aussi précise que le suppose la théorie (Bromham & Penny 2003). Ainsi, de nombreuses études ont montré des taux d’évolution variables (Jenkins et al. 2002) dont la non prise en compte conduirait le plus souvent à une datation erronée et au masquage d’un taux de substitution possiblement « lignée-dépendant ». En effet, si selon la théorie la fréquence des substitutions survenant dans une séquence suit une distribution de Poisson (Zheng 2001), l’horloge moléculaire est en fait souvent moins rigoureuse, conduisant la fréquence des substitutions à suivre une distribution de Poisson « élargie » (Cutler 2000). Bien des facteurs peuvent être à l’origine d’une variation dans le taux de substitution, ne serait-ce que la modification du rapport entre la dérive génétique et la force évolutive sélectionniste. Cette dernière, peut entrainer une forte poussée évolutive en raison des contraintes imposées à la protéine en raison d’un changement de l’environnement ou de la pression du système immunitaire obligeant par exemple un virus à muter pour survivre. De même, le temps de génération ou encore les mécanismes de réparation de l’ADN à l’œuvre au cours de sa réplication, peuvent aussi avoir une influence sur le taux d’évolution d’une séquence (Bromham & Penny 2003). Ces contraintes évolutives pouvant varier selon les époques, les environnements ou les hôtes, l’effet « lignée-dépendant » peut s’avérer être un facteur déterminant pour le taux d’évolution. D’ailleurs, Drake a clairement mis en lumière cette variation du taux de substitution entre les taxa (Drake et al. 1998). Ce relâchement dans la régularité de l’horloge aura donc pour conséquence une datation à tout le moins approximative, voire erronée. Pour circonvenir ce problème, des méthodes de datation moléculaire ont été développées, qui permettent de modéliser un taux de substitution variable en un processus suivant tout de même une distribution de Poisson (Felsenstein 1981 ; Rambaut & Bromham 1998). Néanmoins dans ces modèles d’horloge relâchée, il n’a pas été possible de caractériser les paramètres comme cela a été le cas pour les modèles évolutifs que nous avons détaillés dans le chapitre précédent.

L’un des premiers modèles à avoir été développé permettait à un ou plusieurs clades d’avoir un taux d’évolution constant différant des autres (Yoder & Yang 2000). Cette méthode a pris le nom d’horloge moléculaire « locale ». Le fait d’assigner à un clade particulier un taux propre d’évolution présuppose que l’arbre phylogénétique qui détermine les différents phyla ait été préalablement construit de façon optimale, afin de représenter le plus fidèlement la réalité des liens unissant les séquences étudiées. En effet, si les relations entre taxa sont mal résolues, la délimitation des clades sera approximative et pourra conduire à regrouper des taxa pourtant divergeant, assignant un taux de substitution identique à des séquences qui n’évoluent pas réellement au même rythme. Cette méthode permet néanmoins de comparer différents arbres entre eux, via le test LRT (Kumar & Hedges 1998 ; Takezaki et al. 1995). Cependant, le test LRT fixe l’hypothèse nulle (ici, l’arbre construit selon un modèle d’horloge moléculaire locale) pour la comparer avec l’arbre non raciné, c'est-à-dire construit sans horloge moléculaire. Or, il s’avère que, dans ce cas, la valeur du 𝜒² résultant du test LRT peut ne pas être suffisamment significative, et conduire à ne pas apprécier correctement la différence entre les arbres, tout particulièrement lorsque

les séquences utilisées sont courtes. Ainsi, les taux de substitution variables seraient difficilement détectables avec ces méthodes, ce qui conduirait à dater l’ancêtre commun des séquences beaucoup trop loin dans le temps (Bromham et al. 2000).

Comme dans le cas des reconstructions phylogénétiques, une approche bayésienne de la datation moléculaire a été développée (Kishino et al. 2001 ; Sanderson 1997 ; Thorne et al. 1998). Les modèles bayésiens ont prouvé leur justesse en réconciliant, par exemple, le taux d’évolution et les données paléontologiques des lignées animales ancestrales (Aris-Brosou & Yang 2002). Les analyses bayésiennes appliquées à la datation moléculaire utilisant une horloge relâchée, permettent de spécifier a priori que le taux de substitution le long d’une branche de l’arbre suit une distribution lognormale, centrée sur le taux de substitution des branches ancestrales. De cette façon, les branches ascendantes et descendantes sont corrélées. Le taux de chaque branche est alors déterminé à partir d’une distribution paramétrique, dont la moyenne est une fonction du taux d’évolution de la branche parentale. Il est aussi possible d’envisager une distribution exponentielle, ce qui impliquerait que les variations de taux d’évolution n’apparaissent plus le long des branches, mais au niveau des nœuds, sans lien avec la longueur des branches. Cependant, ces modèles auto-corrélés présupposent que des lignées proches auront un comportement évolutif également proche, ce qui n’est pas absolument avéré. En effet, l’auto-corrélation des séquences signifie que la majorité des différences observées est due à la filiation. Or, lorsque l’on réduit l’échelle de temps séparant l’apparition de deux séquences, les variations purement stochastiques et les contraintes environnementales semblent plus importantes que la filiation pour expliquer les différences observées. D’un autre côté, la seule filiation, pour expliquer les différences de taux d’évolution, semble très improbable lorsque l’on augmente l’échelle de temps ou de distance entre deux échantillonnages. La difficulté réside donc dans le positionnement d’une frontière entre la filiation et les autres facteurs engendrant la variation du taux d’évolution entre des séquences, c'est-à-dire dans l’expression des limites de leur auto-corrélation.

Des alternatives à ces modèles ont donc alors été développées, dans lesquelles les branches adjacentes d’un arbre ne sont pas corrélées (Drummond et al. 2006). Ces modèles d’horloges moléculaires non corrélées permettent de déterminer le taux d’évolution de chaque branche, ou de chaque nœud (selon que la distribution a priori des taux soit envisagée comme lognormale ou exponentielle). L’avantage majeur de ces méthodes est qu’elles ne requièrent pas l’implémentation préalable de la topologie de l’arbre pour calculer les taux d’évolution, mais déterminent elles-mêmes le meilleur arbre en comparant puis en approximant les arbres générés au fil des MCMC (Drummond et al. 2006). Toutes les méthodes déterminant l’âge de l’ancêtre commun d’un jeu de données de séquences peuvent être soumises à discussion. La meilleure façon de confirmer ces hypothèses reste donc de pouvoir les étayer par des données historiques.