• Aucun résultat trouvé

Utilisation des méthodes de reconstruction probabilistes en phylogénie

Partie I : Contexte théorique

A. Qu’est ce que la phylogénie ?

2. Utilisation des méthodes de reconstruction probabilistes en phylogénie

phylogénie

Avant l’utilisation de méthodes de reconstruction probabilistes, différentes méthodes de reconstruction phylogénétique ont été utilisées. On peut citer notamment l’UPGMA (Unweighted Pair Group Method with Arithmetic Mean) et la méthode du Neighbour-Joining, toutes deux basées sur une matrice de distance génétique et la méthode de maximum de Parcimonie basée sur une méthode statistique non-paramétrique. Cependant, par la suite, se sont développées les méthodes dites probabilistes.

Le concept de vraisemblance (probabilité d’observer les données sous un certain modèle) est le fondement des méthodes dites probabilistes. Reportée en phylogénie, la vraisemblance est assimilée au vecteur de l’information phylogénétique qui est contenue dans les données. Deux grandes méthodes basées sur ce concept de vraisemblance ont vu le jour et ont été utilisées en phylogénie ; le maximum de vraisemblance et l’inférence bayésienne. La différence majeure entre ces deux méthodes est le fait qu’elles n’utilisent pas le même concept de probabilité. En effet, elles utilisent les mêmes modèles d’évolution de séquences mais n’utilisent pas la même analyse de probabilité. Ainsi, alors que le maximum de vraisemblance sélectionne l’arbre présentant la plus forte probabilité conduisant aux données (l’arbre qui maximise la vraisemblance), l’inférence

bayésienne donne différentes probabilités de manière « a priori » aux différents arbres

et réalise ensuite des inférences à partir de la distribution de ces probabilités « a

43

Les modèles d’évolution de séquences nucléotidiques, que ce soit en maximum de vraisemblance ou en inférence bayésienne sont les mêmes et sont explicites. Ils

prennent en compte différents paramètres : le taux de substitution nucléotidique φ,

les fréquences nucléotidiques π, l’hétérogénéité des taux Γ et les sites invariables I.

(Figure 6). L’incorporation de ces modèles d’évolution de séquences permet d’estimer en même temps la phylogénie et le mode d’évolution des séquences. Pour choisir le modèle d’évolution le plus adéquat pour les données considérées, différents programmes ont été développés comme « ModelTest » (Posada and Crandall 1998) ou par la suite « jModelTest » (Posada 2008) et « PuMA » (Brown and ElDabaje 2009).

a) Maximum de vraisemblance

L'application de la méthode de maximum de vraisemblance à l'inférence de phylogénies a été proposée pour la première fois en 1967 par Cavalli-Sforza et Edwards (Cavallis and Edwards 1967). Mais c'est à partir des années 70 que les travaux de Felsenstein ont permis son développement (Felsenstein 1973). Durant ces périodes, le problème principal de la totale application et utilisation de cette technique de maximum de vraisemblance en phylogénie était le manque de technique en informatique. En effet, la méthode de maximum de vraisemblance a sensiblement été limitée par la puissance de calcul des ordinateurs existant à l’époque. Et ce n’est qu’au début des années 80 que ce problème fut débloqué par le développement des techniques informatiques. Mais c’est surtout le développement d’un nouvel algorithme par Felsenstein (le « pruning ») qui a permis de calculer pour un grand nombre de taxons, la vraisemblance à partir de leurs séquences nucléotidiques (Felsenstein 1981).

44 Figure 6 : Principaux modèles d’évolution de séquences nucléotidiques et leurs

principaux paramètres.

Adapté de Posada et Crandall (2001) (Posada and Crandall 2001)

Le taux de substitution nucléotidique, les fréquences nucléotidiques, l’hétérogénéité des taux et les sites invariables sont les quatre paramètres qui définissent, selon leur état, le modèle d’évolution le plus approprié aux séquences nucléotidiques.

45

Le concept de maximum de vraisemblance se définit de façon simplifiée comme suit :

La vraisemblance Lx est la probabilité conditionnelle d’observer les données X (ici

alignement de séquences par exemple) étant donné un arbre A (avec des longueurs de

branches et une topologie donnée) :

Lx = Pr (X |A)

Les données sont représentées par un alignement de séquences contenues dans une

matrice M. Cette matrice comporte n taxons (lignes) et c sites (colonnes). On observe

donc des cases sij qui correspondent à l’état nucléotidique du taxon i au site j :

M= [sij] = T G T G . . . A T CT G T C . . . A T C T C A A . . . A A C A A G T . . . C A G T A C C . . . C C G T T G G . . . G C C

Au sein de cette matrice, les sites s sont indépendants et sont notés s1= (TTTATT),

s2=(GGCAAT), s3=(TTAGCG) etc. etc.…

On doit ensuite calculer la probabilité d’obtenir chaque site de l’alignement. La probabilité d’observer l’état des caractères (A, T, C ou G) pour un site donné dépend à la fois de la topologie de l’arbre, de ses longueurs de branches et du modèle d’évolution de ses branches. Ainsi le calcul de probabilité d’observer les données au site considéré est la somme des probabilités d’observer les différents états nucléotidiques possibles à ce site et à chaque nœud interne de l’arbre.

Cependant, si on considère un nombre de taxons supérieur à 10, on s’aperçoit que le nombre de combinaisons devient très vite énorme. C’est pour cela que cette somme se fait via l’algorithme développé par Felsenstein en 1981 (le « pruning ») qui permet de

46

tirer avantage dans son calcul de l’information topologique. De cette manière, la probabilité d’observer l’alignement de séquences est tout simplement le produit des probabilités des différents sites ; ce, bien sûr en admettant l’indépendance des différents sites du jeu de données. Cependant, ce produit donne généralement un nombre très petit (car on multiplie des probabilités entre elles, donc des nombres <1). On utilise alors le logarithme de vraisemblance pour obtenir des valeurs interprétables et plus facilement utilisables en informatique. La vraisemblance de l’alignement des séquences devient ainsi la somme des logarithmes des vraisemblances aux différents sites de l’alignement.

Lors de l’utilisation du maximum de vraisemblance en phylogénie, on incorpore la technique dite de « bootstrap », ou ré-échantillonnage en français afin de vérifier la robustesse de l’arbre. La technique de bootstrap consiste à recréer un jeu de données aléatoire par ré-échantillonnage numérique à partir du jeu de données réel. Un arbre phylogénétique est construit pour chaque jeu de données créé et la proportion de ces arbres obtenus par « bootstrap » et montrant un même regroupement phylogénétique est comptée. On obtient ainsi un « pourcentage de bootstrap » traduisant un niveau de confiance vis-à-vis de la branche considérée de l’arbre (du regroupement phylogénétique donné).

Les programmes de phylogénie incorporant la méthode de maximum de vraisemblance sont nombreux. On peut citer les plus connus tels que « PHYLIP » (Felsenstein 2005), « fastDNAml » (Olsen et al. 1994), « PhyML » (Guindon et al. 2010) et « RAxML » (Stamatakis 2006).

47

b) Inférence bayésienne

Comme son nom l’indique, l’inférence bayésienne a pour point de départ le théorème de Bayes développé par le scientifique du même nom et communiqué à titre posthume par son ami Price (Bayes and Price 1763). Cette méthode d’inférence statistique est donc assez ancienne mais elle n’a été utilisée en reconstruction phylogénétique qu’en 1996 par trois groupes menant des études indépendamment les uns des autres (Rannala and Yang 1996; Li 1996; Mau 1996).

Dans cette méthode, on considère la probabilité postérieure qui est la probabilité de l’hypothèse H sachant les données X :

Pr (H | X).

Ceci est différent du maximum de vraisemblance où, comme nous l’avons vu plus haut, l’on cherche la probabilité des données D sous une hypothèse X :

Pr (D | X).

Cette probabilité postérieure d’une hypothèse peut être donc calculée via le théorème

de Bayes. Incorporée en phylogénie, l’inférence bayésienne combine la probabilité a

priori Pr (A) d’un arbre A avec la vraisemblance Pr (X | A) des données X sachant cet arbre A pour produire une distribution de probabilité postérieure Pr (A | X) sur les arbres en utilisant la formule de Bayes.

La probabilité postérieure d’un arbre pouvant être interprétée comme la probabilité que cet arbre soit vrai sachant les données, les inférences sont réalisées à partir de la distribution de probabilité postérieure des différents arbres évalués au cours de l’analyse.

48

Le calcul de Pr (A | X) étant généralement impossible, on utilise une technique impliquant les chaines de Markov avec technique de Monte Carlo (MCMC) qui

permettent de générer un échantillon de la distribution postérieure des topologies

d’arbres. L’idée des MCMC est qu’une chaine de Markov joue le rôle d’une marche aléatoire guidée à travers tout l’espace multidimensionnel des différents paramètres. Elle est utilisée pour estimer une distribution de probabilités en échantillonnant les valeurs de ces paramètres de façon périodique. Plus le nombre de pas effectués par cette chaîne est important, plus l’approximation de la distribution sera exacte (Lewis 2001). On génère un échantillon de plusieurs dizaines de milliers d’arbres qui suit la distribution de probabilité Pr (A | X). Au final, l’expression des résultats se traduit par un arbre consensus indiquant la probabilité postérieure de ses clades et la fraction des arbres échantillonnés contenant chaque clade.

Les méthodes de maximum de vraisemblance et d’inférence Bayésienne sont de nos jours les plus utilisées en phylogénie et de nombreuses études combinent les deux approches pour pouvoir obtenir deux arbres et regarder si leurs topologies se superposent. Et si on compare l’évolution des différentes méthodes de reconstruction phylogénétiques à travers les décennies, on s’aperçoit d’ailleurs que la méthode de parcimonie longtemps utilisée s’est faite récemment dépasser par l’inférence bayésienne et le maximum de vraisemblance. (Figure 7).

49 0 100 200 300 400 500 600 Maximum de Parcimonie Maximum de Vraisemblance Inférence Bayésienne

Figure 7 : Evolution de l’utilisation des trois méthodes de reconstruction phylogénétique ; le maximum de parcimonie, le maximum de vraisemblance et l’inférence bayésienne depuis l’article de Felsenstein en 1981.

Le nombre de publications correspond au nombre de publications référencées par an sur la base de données de Web of Science® (http://apps.webofknowledge.com.gate1.inist.fr/) contenant les mots clés : « Phylogeny » et « Parsimony », « Phylogeny » et « Likelihood » et « Phylogeny » et « Bayesian »

50