• Aucun résultat trouvé

La phylogénie moléculaire utilise pour les comparer les séquences des molécules d’ADN ou de protéines des êtres vivants dans le but de déterminer les liens de parenté qui les unissent ainsi que pour appréhender leur histoire évolutive (phylogénèse). Suite à la découverte par Watson et Crick de la structure de la molécule d’ADN, de nombreuses techniques ont été mises au point pour décoder l’enchainement des quatre nucléotides qui la constitue. L’avènement de la PCR et du séquençage par la technique de Sanger (Sanger 1977) a permis de générer des données de plus en plus massives de séquences d’ADN,

données qui ont permis le développement de l’approche phylogénétique pour la classification des êtres vivants. L’analyse en phylogénie moléculaire, qui prend en compte les caractéristiques physico-chimiques des molécules étudiées, génère des arbres phylogénétiques.

Un arbre phylogénétique schématise donc les liens unissant les taxons (ou organismes). Les feuilles de l’arbre sont représentées par les séquences connues et analysées des taxons, tandis que les nœuds intermédiaires figurent les ancêtres à l’origine de ces taxons et dont les séquences sont inconnues. C’est la raison pour laquelle on parle d’inférence pour qualifier la manière de calculer un arbre phylogénétique car il forme la conclusion d’interprétations faites par des modèles mathématiques à partir de données réelles. Les taxons se situant après un nœud intermédiaire dans l’arbre, taxon hypothétique dont ils sont les descendants, forment des clades. Enfin, un arbre peut être enraciné si l’ancêtre commun de toutes les séquences étudiées a pu être déterminé préalablement.

La cladistique est une théorie qui a été développée dans les années 1950 par l’entomologiste allemand Willi Henning (Henning 1950). Elle a jeté les bases sémantiques permettant de nommer phénotypiquement les taxons, les groupes de taxons, ainsi que les caractères permettant leur comparaison. Ainsi, un caractère dans une séquence est dit

apomorphe lorsque, quoique différent du caractère ancestral, il est cependant pertinent en

termes de différenciation entre deux organismes semblables. Si ce caractère, malgré une ascendance commune, est unique pour un taxon considéré, on dira alors de lui qu’il est

autopomorphe. A contrario, des états de caractères peuvent être partagés entre des taxons,

sans pour autant permettre de les regrouper en clades. Ces caractères sont dits

plésiomorphes. Enfin, la synapomorphie décrit des caractères partagés par deux descendants

au moins et suffisamment pertinents en termes d’informations phylogénétiques pour reconstruire l’histoire évolutive de ce groupe d’organismes. Le choix des données qui vont être étudiées est donc crucial pour que les résultats de l’analyse soient pertinents, et retracent au plus près la véritable histoire évolutive des séquences et donc des organismes qui les portent.

2-2- Le choix des données

Les relations entre deux organismes ont tout d’abord été établies par comparaison de leurs caractères morphologiques. Depuis la recrudescence des données moléculaires, c'est-à-dire depuis les années 1990, la comparaison des séquences nucléiques et protéiques pour expliquer les liens entre organismes a largement supplanté la comparaison morphologique. Néanmoins, pour les espèces éteintes, dont il ne reste que des fossiles, cette dernière méthode reste encore la seule envisageable. Concernant les virus, il n’existe pas de fossile connu à ce jour. La seule façon d’étudier leurs relations est donc restreinte à l’utilisation de

séquences provenant de virus contemporains. Littéralement, les méthodes phylogénétiques étudient les similarités entre les séquences géniques en partant de l’hypothèse qu’elles sont homologues et donc partagent un ancêtre commun, quel que soit son âge. Cependant, la durée de l’histoire évolutive d’un gène peut avoir engendré une séquence si différente de l’originale que les informations qu’elle porte ne sont plus suffisantes pour que le résultat de leur comparaison soit encore probant. Dans le cas de gènes ayant trop largement divergés, on ne parle d’ailleurs plus d’homologie, mais de similarité, le terme d’homologie étant désormais réservé à des séquences ayant un ancêtre commun récent.

L’ADN étant composé de seulement quatre bases différentes, la comparaison de deux séquences choisies aléatoirement, c'est-à-dire non homologues, montrera en moyenne 25% de nucléotides identiques. L’arbre phylogénétique inféré d’une telle comparaison verrait alors sa valeur prédictive considérablement amoindrie, pour ne pas dire inexploitable. On considère donc que pour comparer des séquences nucléotidiques, il convient qu’elles partagent au minimum 60% de leurs caractères. Les séquences comparées seront donc très proches, ne divergeant que par quelques points de mutations, et partageront une histoire évolutive commune. Nous l’avons vu, les différences entre les séquences peuvent avoir diverses origines et la condition d’homologie n’est pas nécessairement suffisante pour retracer l’histoire évolutive d’un gène. Si les divergences constatées au sein d’une séquence génique proviennent d’une duplication, c'est-à-dire d’une copie supplémentaire d’un gène au sein d’un même génome, ces gènes seront dit paralogues (Fitch 1970). Leur divergence, indépendante l’une de l’autre, sera sans lien avec l’évolution de l’organisme qui les porte. En revanche, si l’évolution de deux gènes homologues a eu lieu après la spéciation et a donc été indépendante, ils seront dits orthologues. Le choix des séquences à comparer dépendra donc du résultat recherché. Ainsi, l’utilisation de gènes orthologues permettra de s’intéresser à la spéciation, tandis que celle de gènes paralogues étudiera leur duplication, c'est-à-dire leur évolution au sein d’un même organisme. Notons que le phénomène de duplication semble avoir joué un rôle important dans l’évolution des espèces, en leur permettant d’acquérir de nouvelles fonctions (Ohno 1970). Outre la duplication d’un gène au sein d’un même génome pouvant biaiser la phylogénèse d’une espèce par le phénomène de paralogie cachée, le transfert latéral de gènes entre deux espèces différentes peut également amener à rapprocher deux espèces pourtant éloignées dans l’arbre du vivant. Il conviendra donc, pour mener à bien une étude phylogénétique, de non seulement analyser les arbres obtenus, mais de croiser ces résultats avec l’histoire naturelle des organismes étudiés.

L’analyse phylogénétique portant sur les gènes homologues, ne devrait cependant pas se limiter à une étude globale. En effet, selon les forces évolutives à l’œuvre et la structure même des séquences, qu’elles soient d’ADN ou d’acides aminés, des parties des séquences peuvent évoluer de façon différente. Ainsi, par exemple, les sites catalytiques d’une enzyme auront nettement moins tendance à varier afin que leur fonction puisse être préservée. Plus que l’information contenue dans les séquences homologues, ce sont donc les sites

homologues présents dans ces séquences qui vont faire l’objet de toute notre attention. Or, il existe une condition sine qua non permettant l’analyse de tels sites, c’est que leur alignement soit correct entre les séquences d’intérêts, c'est-à-dire qu’il reflète la réalité structurelle de ces séquences. Pour cela, les sites homologues doivent être alignés sous forme de colonnes.

Il existe aujourd’hui de nombreux algorithmes permettant d’aligner des séquences homologues. Initialement, les alignements furent effectués manuellement. Ils prenaient la forme de matrice de points dont les colonnes représentaient les sites homologues et les lignes les séquences. Cette méthode « ancestrale », nonobstant son côté fastidieux, avait le désavantage de situer avec difficulté les indels dans les séquences, et donc ne pouvait garantir que l’alignement généré fut optimal. Le premier algorithme permettant une automatisation des alignements de séquences fut développé dès 1970 par Needleman et Wunsh (Needleman 1970). Il utilisait une programmation dynamique, dans laquelle un score était établi selon un indice de similarité entre deux séquences, l’algorithme maximisant ce score pour établir un alignement optimal. A la même période, l’algorithme que développa Sellers considérait, lui, la distance entre deux séquences pour la minimiser au maximum (Sellers 1974).

Si ces algorithmes peuvent en théorie être applicables pour l’alignement de plus de deux séquences, il s’avère que le temps de calcul et la capacité informatique nécessaires rendent leur utilisation en pratique impossible. Des algorithmes d’alignements multiples ont alors été développés qui fournissent une approximation de l’alignement optimal des séquences mais permettent l’alignement de très nombreuses séquences, au moyen d’alignements progressifs. Cette méthode commence par aligner les séquences les plus semblables, puis les autres séquences sont implémentées successivement dans l’alignement de la plus similaire à la plus dissemblable (Corpet 1988 ; Taylor 1987). Parmi les algorithmes les plus récents et les plus utilisés, on pourra citer l’alignement multiple par les méthodes ClustalW (Higgins et al. 1996) et MUSCLE (Edgar 2004). Il est important de noter ici que, si les algorithmes permettant de réaliser des alignements multiples de séquences d’ADN sont parfaitement à même de détecter les zones d’homologies entre les séquences, ils ne peuvent pas déterminer si l’alignement produit tient ou non compte du cadre de lecture des gènes. Dans le cas où les séquences analysées sont codantes, c’est d’un intérêt fondamental pour respecter au mieux la réalité biologique des sites alignés. Tout alignement généré par ces algorithmes doit donc être contrôlé minutieusement avant reconstruction phylogénétique. Les alignements ainsi vérifiés vont être à la base de toute analyse phylogénétique, puisqu’ils mettent en exergue les divergences accumulées entre les sites homologues des séquences au cours de leur histoire évolutive.

2-3- Reconstructions phylogénétiques

Il existe plusieurs méthodes de reconstruction permettant d’inférer un arbre phylogénétique. La première est basée sur l’observation simple de la distance entre des séquences prises deux à deux, établie en termes de différences en nucléotides ou en acides aminés. La méthode des distances est représentée par la méthode UPGMA (tombée en désuétude) ainsi que la méthode BioNJ. Ces méthodes construisent des arbres non enracinés en incrémentant les séquences en fonction de leur proximité avec les précédentes. Elles suivent un modèle évolutif explicite, c'est-à-dire basé sur l’observation des mécanismes évolutifs à l’œuvre. La seconde s’intéresse à l’état des caractères qui divergent à chaque site des séquences (les colonnes de l’alignement), c'est-à-dire qu’elle prend en compte la nature et la position des substitutions (transversion, transition, indel). C’est le cas des méthodes de maximum de parcimonie, de maximum de vraisemblance et d’inférence bayésienne. Ces dernières peuvent être subdivisées en deux groupes : le maximum de vraisemblance et l’inférence bayésienne, qui construisent un arbre phylogénétique en suivant un modèle explicite d’évolution, tout en calculant la probabilité de l’organisation des branches de l’arbre, ainsi que de la longueur de ces branches. Ces méthodes génèrent des arbres enracinés puisque les modèles appliqués tiennent compte de la flèche du temps. Le maximum de parcimonie, quant à lui, ne suit pas de modèle explicite d’évolution, puisqu’il se borne à comptabiliser le nombre de « pas mutationnels » nécessaires pour passer d’une séquence à une autre au sein de l’arbre.

Dans les deux cas, ces méthodes d’inférence phylogénétique s’appuient sur une matrice de distance qui est calculée à partir de l’alignement des séquences étudiées. La question fondamentale sous-jacente à la génération de ces matrices est la suivante : comment peut-on définir mathématiquement la distance évolutive, ou distance phénétique, entre deux séquences qui s’approchent au plus près de la réalité biologique de cette divergence. La nature stochastique des substitutions apparaissant dans des séquences au cours du temps est un concept assez partagé. Il convient donc d’établir un modèle de ce processus stochastique d’évènements de substitution.

La méthode la plus simple d’accès pour évaluer la distance entre deux séquences consiste à calculer la proportion de sites homologues divergents. Cette mesure est appelée

p-distance et elle est exprimée en nombre de substitutions par site existant entre deux

séquences. Si elle est simple à effectuer, cette méthode ne peut rendre compte de la distance phénétique réelle entre deux séquences. D’une part, elle ne prend pas en compte la possibilité des substitutions multiples sur un même site (exemple, la substitution observée d’une Thymine par une Guanine mais qui s’est déroulée par l’intermédiaire, non observable d’une Thymine en Cytosine puis en Guanine). D’autre part, elle ne peut non plus prendre en compte les phénomènes de réversion calculant une p-distance égale à 0 entre deux sites qui ont pourtant eu une histoire évolutive différente. Le calcul de la distance phénétique observée revient donc le plus souvent à sous-estimer la distance génétique réelle entre des

séquences homologues. C’est la raison pour laquelle il convient de modéliser l’évolution afin de pouvoir corriger la mesure de la p-distance.

Plusieurs formules permettant de calculer la distance entre des séquences ont été formulées au cours du temps. Parmi elles, on trouvera celle énoncée par Nei en 1972 (Nei 1972) et en 1978 (Nei 1978) ou par Reynolds en 1983 (Reynolds et al. 1983).

Le principe des méthodes de modélisation de l’évolution par les distances tentent de générer un arbre phylogénétique à partir d’une matrice de distances établissant la distance génétique séparant des séquences deux à deux (Felsenstein 1988). Or, comme nous venons de le voir, la p-distance est une sous-estimation de la distance génétique réelle, et c’est pourquoi l’on va chercher à appliquer un modèle évolutif le plus réaliste possible pour les séquences considérées. Notons que l’utilisation d’un modèle irréaliste entrainera d’énormes biais dans la détermination de la topologie de l’arbre inféré à partir de la matrice (Lockart 1994 ; Van de Peer 1996).

On distingue donc les méthodes de reconstruction selon qu’elles soient basées sur les caractères ou non et sur un modèle d’évolution ou non (Tableau 1).

Méthodes Basée sur les caractères Non basée sur les caractères

Basée sur un modèle explicite d’évolution

1-Maximum de vraisemblance

2-inférence bayésienne Distance (BioNJ, UPGMA)

Non basée sur un modèle

explicite d’évolution Maximum de parcimonie

Tableau 1 : caractéristiques des différentes méthodes de reconstruction phylogénétique. Les méthodes basées sur les caractères regardent leur état à chaque site de la séquence tandis que les méthodes basées sur les distances s’intéressent à la proximité entre les séquences.

2-4- Reconstructions phylogénétiques par la méthode des distances : UPGMA, minimum d’évolution et méthode du plus proche voisin

La première méthode développée fût l’UPGMA (pour Unweighted – Pair Group

Method with Arithmetic means). Elle est aujourd’hui tombée en désuétude, car une des

hypothèses sur lesquelles elle repose est l’hypothèse de l’horloge moléculaire stricte, c'est-à-dire un taux de substitution constant dans toutes les branches de l’arbre, arbre dit alors ultramétrique. Comme cela n’arrive pour ainsi dire jamais, cette méthode est donc extrêmement sensible à un taux de substitution variable selon les phylum (Huelsenbeck

1993). De plus, un arbre ultramétrique doit être enraciné, c'est-à-dire contenir un groupe externe, et dans lequel tous les taxa sont équidistants de la racine, condition qui n’est pas toujours réalisable.

D’autres algorithmes, comportant moins de biais analytiques ont été alors développés : la méthode du « minimum d’évolution » (ME) (Kidd 1971 ; Rzhetsky 1992b) et la méthode du plus proche voisin, ou « Neighbor-Joining » (NJ) (Saitou & Nei 1987). La méthode ME propose d’examiner toutes les topologies des arbres possibles et d’en calculer la longueur totale des branches 𝑆. La topologie retenue étant celle pour laquelle la longueur 𝑆 est minimale. L’une des limitations de cette méthode est qu’elle se veut heuristique, c'est-à-dire analysant successivement toutes les hypothèses possibles. La méthode NJ, pour sa part, est une approximation du ME. Bien que reposant également sur une heuristique comme le ME, il a été montré que les arbres produits par cette méthode était cependant très similaires à ceux générés par le ME (Pauplin 2000 ; Rzhetsky 1992a).

Quand bien même ces méthodes de reconstruction produisent des arbres phylogénétiques fiables, elles sont soumises au phénomène dit d’attraction des longues

branches, biais d’analyse qui aura tendance à considérer des séquences très divergentes

comme des séquences sœurs et donc à les regrouper au sein d’un même clade.

2-5- Reconstruction phylogénétique par le maximum de parcimonie

L’analyse phylogénétique par le maximum de parcimonie (MP) met en œuvre un critère permettant d’estimer et de minimiser le nombre d’évènements évolutifs ayant permis le passage d’une séquence à une autre. Autrement dit, elle recherche le plus petit nombre de changement d’état des caractères composant les séquences. Cette méthode a tout d’abord été développée pour la comparaison de données morphologiques (Hennig 1966). Elle tire son origine d’un concept philosophique, dit du rasoir d’Ockham. Guillaume d’Ockham fut un philosophe franciscain (1285 – 1347) rationaliste qui postulat le concept suivant : « Pluralitas non est ponenda sine necessitate » (les multiples ne doivent pas être utilisés sans nécessité), ce qui signifie que les hypothèses les plus simples sont souvent les plus vraisemblables (nous verrons ultérieurement que cette assertion doit aussi être utilisée lors du choix d’un modèle évolutif, celui prenant en compte le moins de paramètres devant être privilégié). C’est pourquoi ce principe de parcimonie est également appelé principe de simplicité ou d’économie.

A la différence des méthodes basées sur les distances entre les séquences, l’approche par le maximum de parcimonie tient compte de l’état individuel de chaque caractère contenu dans les séquences. Elle a pour principales hypothèses :

- l’indépendance des sites, c'est-à-dire que les évènements affectant un caractère précis de la séquence n’influencent pas ni ne sont influencés par les évènements affectant les autres caractères de la séquence (ce qui n’est pas toujours vérifié, les structures secondaires des caractères pouvant avoir une influence sur leurs voisins (Tillier & Collins 1998)),

- l’uniformité du processus d’évolution, c'est-à-dire l’homogénéité du taux d’évolution pour tous les sites d’une séquence.

L’arbre phylogénétique inféré par la méthode de parcimonie sera donc celui rendant compte du minimum d’évènements évolutifs ayant pu se produire et donc du chemin le plus court permettant d’aller d’un taxon à un autre (Fitch 1971), soit le plus petit nombre de substitutions possible entre les données. Parmi toutes les topologies d’arbres comparées, celle qui sera retenue sera celle de l’arbre ayant obtenu le plus petit score parcimonieux.

Tout comme les méthodes de distances décrites ci-dessus, l’analyse en maximum de parcimonie est sujette au biais de l’attraction des longues branches. De plus, comme Felsenstein l’a montré (Felsenstein 1978), cette méthode peut parfois être inconsistante, c'est-à-dire amener à un résultat erroné (en statistiques, la notion de consistance prétend que la probabilité d’un paramètre doit tendre vers 1 lorsque le nombre de données tend vers l’infini).

Dans l’étude que nous avons réalisée sur l’évolution du virus de la Peste porcine africaine, nous avons souhaité éviter les biais d’analyses induits par les méthodes de distances et de maximum de parcimonie. Aussi n’avons-nous employé que les méthodes probabilistes de maximum de vraisemblance et d’inférence bayésienne avec technique de Monte Carlo, méthodes que nous allons donc davantage détailler dans les chapitres suivants.

2-6- Les méthodes probabilistes

Les méthodes phylogénétiques probabilistes reposent sur le concept de vraisemblance. Le concept de vraisemblance a été introduit par R.A. Fisher en 1922 (Aldrich 1997). La vraisemblance est une probabilité qui a pour objectif d’expliquer un jeu de données étudié selon un modèle probabiliste donné particulier. La valeur de cette probabilité peut alors être considérée comme l’expression de l’adéquation entre le modèle choisi et le jeu de données auquel on l’a appliqué. Les méthodes probabilistes utilisent des modèles évolutifs pour expliquer la phylogénèse d’organismes via les séquences d’ADN ou de protéines et indiquent donc si le modèle choisi est plus ou moins adapté pour résoudre le jeu de données étudié. Les modèles d’évolutions moléculaires, appelés aussi modèles de substitution, tentent de décrire le processus stochastique à l’œuvre lors de la survenue de

substitutions au sein de séquences tant d’ADN que de protéines, et ainsi d’expliquer les divergences observées entre des séquences homologues. Ils ont été développés au cours du