• Aucun résultat trouvé

L’algorithme dit «algorithme de pruning de Felsenstein» [Felsenstein, 1973, 1981]

permet de calculer la vraisemblance d’un modèle phylogénétique à partir de données observées, c’est-à-dire la probabilité avec laquelle les données observées ont pu être engendrées par le modèle en question. Nous présentons ci-dessous les fondements théo- riques de cet algorithme.

4.4.1 Présentation dans un contexte raciné

Soit T un arbre binaire enraciné avec m feuilles. Soit D l’ensemble des données aux feuilles et Q le processus substitutionnel. La vraisemblance de l’arbre s’écrit :

Lk(Q,T |D)déf.= Pr(D|T ,Q) (4.5)

Quelle est alors la probabilité des données sachant l’arbre et le processus substitution- nel ? Soit D = {Xi}i ∈[1,n]où n est la longueur de l’alignement et Xi la iecolonne de l’aligne-

ment sur lequel on a construit la phylogénie. On numérote les feuilles de 1 à m et Xij se trouve donc être l’acide aminé présent chez le taxon j (la jefeuille) et sur la colonne i. On

fait de plus l’hypothèse classique d’indépendance des sites : Pr(D|T ,Q) = Y

i ∈[1,n]

Pr(Xi|T ,Q) (4.6)

Comment calculer Pr(Xi|T ,Q) ? On présente ci-dessous un algorithme récursif à partir

de la situation présentée en figure 4.3.

L’arbre U est constitué du nœud u et de ses sous-arbres gauche (V ) et droit (W ). Les nœuds v et w sont les racines respectives des sous-arbres V et W . Les branches reliant u à

v et u à w sont de longueurs respectives lvet lw. Quelle est alors la vraisemblance de l’arbre

U sachant les données aux feuilles de U , c’est-à-dire de V et de W ? On peut répondre à cette question en réécrivant Lk(Q,U |DV ∪DW). On paramétrise selon la valeur (inconnue)

du caractère porté par le nœud u en utilisant simplement le théorème de Bayes : Lk(Q,U |DV ∪ DW) déf. = Pr(DV ∪ DW|U ,Q) (4.7) = X α Pr(u = α)Pr(D V ∪ DW|U ,Q,u = α) (4.8)

4.4. ALGORITHME DE FELSENSTEIN 81 v w u V W lv lw U

Figure 4.3. Un arbre phylogénétique de racine u et ses deux sous-arbres. Cette illustra- tion sert de support à la présentation de l’algorithme de Felsenstein que l’on trouve dans ces lignes.

Dans l’équation qui précède, la sommation sur α se fait en parcourant les vingt acides aminés. L’histoire évolutive ayant découlé de la présence du caractère α au nœud u s’écrit ensuite en descendant dans l’arbre et en paramétrisant suivant les caractères portés par v et w : Pr(DV∪DW|U ,Q,u = α) = X β h Pr(α→ β)Pr(Dlv V|V ,Q, v = β) iX γ h Pr(α→ γ)Pr(Dlw W|W ,Q, w = γ) i (4.9) En écrivant ce qui précède, on fait l’hypothèse logique que l’histoire découlant du nœud v (resp. w) ne dépend que du sous-arbre V (resp. W ), du processus Q et du ca- ractère porté par v (resp. w). Ceci est cohérent avec la structure d’arbre elle-même, qui présente l’évolution de l’une et de l’autre de deux espèces issues d’un événement de spé- ciation, comme indépendantes après ledit événement.

Si l’on sait calculer les expressions de la forme Pr(α lv

→ β), alors on a atteint un schéma de récurrence puisque le calcul de Pr(DU|U ,Q,u = α) a engendré deux expressions de

la même forme, faisant intervenir les sous-arbres V et W à la place de l’arbre U . Reste à savoir comment cette récurrence va prendre fin : lorsque le sous-arbre V est réduit à une simple feuille (V = {v}), que vaut Pr(DV|{v = β},Q) ? La réponse à cette question est simple :

82 CHAPITRE 4. PROCESSUS ÉVOLUTIFS ET PHYLOGÉNIES

puisqu’on connaît le caractère x porté par la feuille v dans l’alignement (DV = {x}), on a :

Pr(DV|{v = β},Q) =

½

1 si β = x

0 sinon (4.10)

Les feuilles portant un gap (ou un caractère ‘X’ ou ‘ ?’, qui dénotent tous deux l’in- détermination totale quant au caractère effectivement présent dans la séquence bio- logique) ont une vraisemblance partielle égale à 1 quel que soit le caractère testé : Pr(DV|{v = β},Q) = 1 ∀β.

En se rappelant de plus que les processus substitutionnels markoviens Q donnent l’ex- pression de Pr(α→ β) =lv £eQlv¤

α,β , on sait donc calculer Pr(DU|U ,Q,u = α) pour tout

acide aminé α. Mais pour calculer finalement la vraisemblance de l’arbre U selon l’équa- tion (4.8), il nous faut encore avoir connaissance des termes Pr(u = α), probabilités a priori d’avoir le caractère α à la racine de l’arbre. Ces probabilités a priori sont données par la distribution stationnaire π du processus Q :

Lk(Q,U |DU) =

X

α

π(α)Pr(DU|U ,Q,u = α) (4.11)

On souligne ici l’importance de la condition de stationnarité, laquelle n’est pas tou- jours faite (voir par exemple [Galtier et Gouy, 1998], repris par [Boussau et al., 2008]).

L’algorithme récursif détaillé ci-dessus, dit algorithme de pruning de Felsenstein [Fel- senstein, 1973, 1981], nous permet donc de calculer la vraisemblance d’un arbre enraciné étant donné les caractères aux feuilles et le processus substitutionnel employé, et ce pour chacun des sites d’un alignement. De par l’hypothèse d’indépendance des sites, la vrai- semblance calculée sur l’alignement est le produit des vraisemblances calculées sur les sites. Les vraisemblances étant toujours comprises entre 0 et 1 (et en règle général très proches de zéro pour des alignements de données biologiques), il est d’usage de manipu- ler non pas les vraisemblances elle-mêmes, mais le logarithme de ces vraisemblances. Le produit sur les n colonnes de l’alignement se transforme alors en une sommation :

Lk(Q,T |D) = n Y i =1Lk(Q,T |X i) ⇒ logLk(Q,T |D) = n X i =1logLk(Q,T |X i) (4.12)

4.4.2 Algorithme dans un contexte non raciné

Nous présentons maintenant l’algorithme précédent dans un contexte non raciné, c’est-à-dire dans lequel l’arbre ne possède pas de racine identifiée. Chaque nœud n’a donc plus ni père ni fils, mais que des voisins (un seul s’il s’agit d’une feuille, trois sinon). Ce contexte correspond à l’arbre phylogénétique U tel que présenté en figure 4.4, où

4.4. ALGORITHME DE FELSENSTEIN 83

l’on a singularisé une branche b0 de longueur l reliant deux nœuds que l’on appelle v

et w. Comme précédemment, on a deux sous-arbres V et W . On peut dire que V est le sous-arbre gauche de la branche en question, tandis que W en est le sous-arbre droit. L’un comme l’autre peuvent éventuellement être réduit à une feuille, cela ne gêne pas notre exposé.

l

v w

V W

Figure 4.4. Un arbre phylogénétique U non raciné, représenté en singularisant l’une de ses branches, qu’on appelle b0.

Le calcul de la vraisemblance totale de l’arbre se fait en choisissant implicitement l’un des deux sommets de cette branche (ici nous choisissons v) et en brisant la symétrie des expressions conformément à ce choix :

Lk(Q,U |DV ∪ DW) = X α X β π(α)Pr(α→ β)Lk(Q,V |Dl V, v = α)Lk(Q,W |DW, w = β) (4.13)

En remarquant que du point de vue de la branche b0, chacun des nœuds situés à ses

deux extrémités (à gauche et à droite) apporte un vecteur de vraisemblances partielles à vingt composantes correspondant aux vingt acides aminés, on peut écrire ce qui précède de la façon suivante : Lk(Q,U |DV ∪ DW) = X α X β Lk_left(b0,α)π(α)Pr(α→ β)Lk_right(bl 0,β) (4.14)

L’utilisation d’un processus Q réversible rend le calcul de la vraisemblance Lk(U |DV ∪ DW,Q) insensible au choix d’une racine implicite, puisqu’on a alors :

84 CHAPITRE 4. PROCESSUS ÉVOLUTIFS ET PHYLOGÉNIES

4.5 Rendre compte de la variabilité des taux d’évolution en